Definizione e proprietà

1. Definizione e proprietà

Il valore atteso è uno dei concetti più importanti di tutta la probabilità. Il valore atteso di una variabile casuale a valori reali indica il centro della distribuzione della variabile in un senso particolare. In più, calcolando il valore atteso di varie trasformazioni reali di una generica variabile, possiamo ricavare una varietà di importanti caratteristiche della variabile, comprese misure di dispersione, simmetria e correlazione.

Definizioni

Al solito, iniziamo con l'introdurre un esperimento cauale definito su un certo spazio campionario e con misura di probabilità P. Supponiamo che X sia una variabile casuale, relativa all'esperimento, a valori in un sottinsieme S di R.

Se X ha distribuzione discreta con funzione di densità f, il valore atteso di X è definito come

E(X) = _{x
in S} xf(x).

Se X ha distribuzione continua con funzione di densità f, il valore atteso di X è definito come

E(X) = _S xf(x)dx.

Supponiamo infine che X abbia distribuzione mista, con densità parziale discreta g su D e densità parziale continua h su C, dove D e C sono disgiunti, D è numerabile e S = D C. Il valore atteso di X è definito come

E(X) = _x
in_C xg(x) + _C xh(x)dx.

In ogni caso, il valore atteso di X può non esistere, poiché la sommatoria o l'integrale può non convergere. Il valore atteso di X è detto anche media della distribuzione di X ed è spesso indicato con µ.

Interpretazione

La media è il centro della distribuzione di probabilità di X in un senso particolare. Se pensiamo alla distribuzione come a una distribuzione di massa, la media è il baricentro fisico della massa. Ricordiamo, a questo proposito, gli altri indici di centralità che abbiamo studiato: la moda è ogni valore di x che massimizza f(x). la mediana è ogni valore di x che soddisfa

P(X < x) 1/2, P(X x) 1/2.

Per interpretare il valore atteso in senso probabilistico, supponiamo di generare un nuovo esperimento composto ripetendo più volte l'esperimento semplice. Ciò produce una successione di variabili casuali indipendenti,

X₁, X₂, X₃ ...

ciascuna distribuita come X. In termini statistici, stiamo campionando dalla distribuzione di X. Il valore medio, o media campionaria, dopo n replicazioni è

M_n = (X₁ + X₂ + ··· + X_n) / n Il valore medio M_n converge al valore atteso µ per n . La regione di questo risultato è la legge dei grandi numeri, uno dei più importanti teoremi della probabilità. Esempi e casi particolari 1. Una costante c può essere pensata come variabile casuale che può assumere il solo valore c con probabilità 1. La distribuzione corrispondente è detta a volte point mass in c. Mostra che E(c) = c. 2. Sia I una variabili casuale indicatore (cioè una variabile che assume solo i valori 0 e 1). Prova che E(I) = P(I = 1). In particolare, se I_A è l'indicatore dell'evento A, allora E(I_A) = P(A), per cui, in un certo senso, il valore atteso individua la probabilità. Un testo che usa come concetto fondamentale il valore atteso e non la probabilità è Probability via Expectation, di Peter Whittle. 3. Supponi che X sia distribuita uniformemente su un sottinsieme finito S di R. Prova che E(X) è la media aritmetica dei numeri in S. 4. Il punteggio di un dado equilibrato è distribuito uniformemente su {1, 2, 3, 4, 5, 6}. Trova il punteggio atteso. 5. Nell'esperimento dei dadi, scegli un dado equilibrato. Simula 1000 replicazioni, aggioranando ogni 10, e osserva la convergenza della media campionaria al valore atteso della distribuzione. 6. Trova il punteggio atteso di un dado piatto uno-sei. La funzione di densità è f(1) = 1/4, f(2) = f(3) = f(4) = f(5) = 1/8, f(6) = 1/4 7. Nell'esperimento dei dadi, scegli un dado piatto uno-sei. Simula 1000 replicazioni, aggioranando ogni 10, e osserva la convergenza della media campionaria al valore atteso della distribuzione. 8. Supponi che Y abbia funzione di densità f(n) = p(1 - p)ⁿ^{- 1} per n = 1, 2, ..., dove 0 < p < 1 è un parametro. Ciò definisce la distribuzione geometrica con parametro p. Prova che E(Y) = 1 / p. 9. Supponi che N abbia funzione di densità f(n) = exp(-t)tⁿ / n! per n = 0, 1, ..., dove t > 0 è un parametro. Si tratta della distribuzione di Poisson con parametro t. Mostra che E(N) = t. 10. Supponi che X sia distribuita uniformemente su un intervallo (a, b) di R. Prova che la media è il punto centrale dell'intervallo: E(X) = (a + b) / 2 11. Supponi che X abbia densità f(x) = 12x²(1 - x) per 0 < x < 1. Trova E(X). Trova la moda di X Trova la mediana di X Disegna il grafico di f e indica la posizione di media, mediana e moda sull'asse delle x. 12. Supponi che X abbia funzione di densità f(x) = a / x^a^{+ 1} per x > 1, dove a > 0 è un parametro. Si tratta della distribuzione di Pareto con parametro di forma a. Prova che E(X) = se 0 < a 1 E(X) = a / (a - 1) se a > 1. 13. Nell'applet variabile casuale, seleziona la distribuzione di Pareto. Per i seguenti valori del parametro di forma a, simula 1000 replicazioni, aggiornando ogni 10, e osserva il comportamento della media empirica. a = 1 a = 2 a = 3 14. Supponi che T abbia densità f(t) = r exp(-rt) per t > 0 dove r > 0 è un parametro. Abbiamo quindi una distribuzione esponenziale con parametro di velocità r. Prova che E(T) = 1 / r. Prova che la moda di T è 0. Prova che la mediana di T è ln(2) / r. Disegna il grafico di f e indica la posizione di media, mediana e moda sull'asse delle x. 15. Nell'applet variabile casuale, seleziona la distribuzione gamma e poni k = 1 per avere la distribuzione esponenziale. Modifica r con la barra a scorrimento e osserva la posizione della media rispetto al grafico della funzione di ripartizione. Con r = 2, simula 1000 replicazioni, aggiornando ogni 10. Osserva la convergenza della media campionaria al valore atteso della distribuzione. 16. Supponi che X abbia densità f(x) = 1 / [(1 + x²)], x appartenente a R. Si ha così una distribuzione di Cauchy (che prende nome da Augustin Cauchy), della famiglia delle distribuzioni t. Disegna il grafico di f. Prova che E(X) non esiste. Trova la mediana di X. Trova la moda di X. 17. Nell'applet variabile casuale, seleziona la distribuzione t di Student e poni n = 1 per avere la distribuzione di Cauchy. Simula 1000 replicazioni, aggiornando ogni 10, e osserva il comportamento della media campionaria. 18. Supponi che Z abbia densità f(z) = exp(-z² / 2) / (2)^1/2 per z appartenente a R. Si ha quindi una distribuzione normale standardizzata. Prova che E(Z) = 0. Disegna il grafico di f e indica E(Z) sull'asse z. 19. Nell'applet variabile casuale, seleziona la distribuzione normale (i valori preimpostati corrispondono a una normale standardizzata). Simula 1000 replicazioni, aggiornando ogni 10, e osserva la convergenza della media campionaria al valore atteso della distribuzione Teorema del cambiamento di variabile Il valore atteso di una variabile casuale a valori reali indica il centro della distribuzione della variabile. Quest'ida è molto più potente di quanto non potrebbe sembrare: calcolando il valore atteso di varie funzioni di una certa variabile casuale, possiamo individuare molte interessanti caratteristiche della distribuzione. Supponiamo che X sia una variabile casuale a valori in un generico insieme S, e che r sia funzione da S in R. r(X) è quindi una variabile casuale a valori reali, e possiamo essere interessati al calcolo di E[r(X)]. Il calcolo di questo valore atteso richiede però, per definizione, la conoscenza della funzione di densità della variabile trasformata r(X) (in genere problema complesso). Fortunatamente, si può procedere in maniera più semplice utilizzando il teorema del cambiamento di variabile per il valore atteso. 20. Mostra che, se X ha distribuzione discreta con funzione di densità f, allora E[r(X)] = _{x in S} r(x)f(x). Similmente, se X ha distribuzione continua con funzione di densità f allora E[r(X)] = _S r(x)f(x)dx. 21. Dimostra il teorema del cambiamento di variabile nel caso in cui X è continua e r discreta (cioè r ha campo di variazione numerabile). 22. Supponi che X sia distribuita uniformemente su (-1, 3). Trova la densità di X². Trova E(X²) utilizzando la funzione di densità in (a). Trova E(X²) utilizzando il teorema del cambiamento di variabile. 23. Supponi che X abbia funzione di densità f(x) = x² / 60 per x {-2, -1, 1, 2, 3, 4, 5}. Trova E(X). Trova la densità di X². Trova E(X²) utilizzando la funzione di densità in (a). Trova E(X²) utilizzando il teorema del cambiamento di variabile. 24. Supponi che X abbia funzione di densità f(x) = 12x²(1 - x) per 0 < x < 1. Trova E(1/X) E(X^1/2) 25. Supponi che (X, Y) abbia funzione di densità di probabilità f(x, y) = 2(x + y) per 0 < x < y < 1. Trova E(X) E(Y) E(X²Y). E(X² + Y²) 26. Supponi che X sia distribuita uniformemente sull'intervallo [a, b], e che g sia funzione continua da [a, b] in R. Mostra che E[g(X)] è il valore medio di g su [a, b], come definito in analisi. Proprietà fondamentali Gli esercizi seguenti identificano le proprietà fondamentali del valore atteso. Tali proprietà valgono in generale, ma limitati a dimostrarle separatamente per il caso discreto e il caso continuo, facendo affidamento prevalentemente sul teorema del cambiamento di variabile. In questi esercizi X e Y sono variabili casuali a valori reali relative a un esperimento, c è una costante e si assume che i valori attesi indicati esistano. 27. Prova che E(X + Y) = E(X) + E(Y) 28. Prova che E(cX) = cE(X). Quindi, in conseguenza di questi primi due risultati, E(aX + bY) = aE(X) + bE(Y) per due costanti a e b; detto a parole, il valore atteso è un operatore lineare. 29. Dimostra che, se X 0 (con probabilità 1), allora E(X) 0. 30. Dimostra che, se X Y (con probabilità 1), allora E(X) E(Y) 31. Prova che |E(X)| E(|X|) I risultati di questi esercizi sono così importanti che è bene comprenderli anche a livello intuitivo. In realtà, tali proprietà sono in un certo senso conseguenza dell'interpretazione del valore atteso alla luce della legge dei grandi numeri. 32. Supponi che X e Y siano indipendenti. Prova che E(XY) = E(X)E(Y) L'esercizio precedente mostra che variabili casuali indipendenti sono incorrelate. 33. Si lanciano due dadi equilibrati e si registrano i punteggi (X₁, X₂). Trova il valore atteso di Y = X₁+ X₂. Z = X₁X₂. U = min{X₁, X₂} V = max{X₁, X₂}. 34. Sia E(X) = 5 e E(Y) = -2. Trova E(3X + 4Y - 7). 35. Supponi che X e Y siano indipendenti e che E(X) = 5, E(Y) = -2. Trova E[(3X - 4)(2Y + 7)] 36. Ci sono 5 cacciatori di anatre, tutti ottimi tiratori. Passa uno stormo di 10 oche, e ciascun cacciatore ne sceglie una a caso e spara. Trova il numero di oche uccise atteso. Suggerimento: Esprimi il numero di oche uccise come somma di variabili casuali indicatore. Per un'analisi più completa del problema del cacciatore di anatre, vedi il numero di valori campionari distinti nel capitolo sui modelli di campionamento finito. Momenti Se X è una variabile casuale, a un numero reale e n > 0, l'n-esimo momento di X centrato su a è definito come E[(X - a)ⁿ]. I momenti centrati su 0 si dicono semplicemente momenti. I momenti centrati su µ = E(X) si dicono momenti centrali. Il momento secondo è particolarmente importante ed è studiato in dettaglio nel paragrafo sulla varianza. In certi casi, se si conoscono tutti i momenti di X, possiamo individuare completamente la distribuzione di X. Questo concetto è analizzato nel paragrafo sulle funzioni generatrici. 37. Supponi che X sia distribuita uniformemente sull'intervallo (a, b). Trova una formula generale per i momenti di X. 38. Supponi che X abbia densità f(x) = 12x²(1 - x), 0 < x < 1. Trova una formula generale per i momenti di X. 39. Supponi che X abbia distribuzione continua con densità f e simmetrica attorno ad a: f(a + t) = f(a - t) per ogni t Mostra che, se E(X) esiste, allora E(X) = a. Variabili non negative 40. Sia X una variabile casuale non negativa (continua o discreta) relativa a un certo esperimento. Dimostra che E(X) = _{{x > 0}} P(X > x)dx. Suggerimento: Nella rappresentazione di cui sopra, esprimi P(X > t) in funzione della densità di X, come sommatoria nel caso discreto o integrale nel caso continuo. Poi scambia integrale e sommatoria (nel caso discreto) o i due integrali (nel caso continuo). 41. Prova la disuguaglianza di Markov (in onore di Andrei Markov): Se X è una variabile non negativa, allora per t > 0, P(X t) E(X) / t. Suggerimento: Sia I_t la variabile indicatore dell'evento {X t}. Prova che tI_t X. Poi prendi i valori attesi tramite la disugauglianza. 42. Usa il risultato dell'esercizio 40 per provare la formula del cambiamento di variabile nel caso in cui il vettore casuale X ha distribuzione continua e r è non negativo. 43. Usa il risultato dell'esercizio 40 per provare che se X è non negativa e E(X) = 0 allora P(X = 0) = 1. Il seguente risultato è simile a quello dell'esercizio 40, ma specifico per le variabile a valori interi non negativi: 44. Supponi che N sia una variabile casuale discreta che assume valori nell'insieme degli interi non negativi. Prova che E(N) = _{n = 0, 1, ...} P(N > n) = _{n = 1, 2, ...} P(N n). Suggerimento: Nella prima formula, esprimi P(N > n) come somma in termini della funzione di densità di N e scambia quindi le due sommatorie. La seconda formula può essere ottenua a partire dalla prima con un cambiamento di variabile degli indici di somma. 45. Supponi che X abbia funzione di densità f(x) = r exp(-rx) per x > 0, dove r > 0 è un parametro. Si ha quindi la distribuzione esponenziale con parametro di velocità r. Trova E(X) utilizzando la definizione. Trova E(X) utilizzando la formula dell'esercizio 40. Calcola entrambi i lati della disugauglianza di Markov. 46. Supponi che Y abbia funzione di densità g(n) = (1 - p)^{n - 1}p per n = 1, 2, ... dove 0 < p < 1 è un parametro. Ciò definisce la distribuzione geometrica con parametro p. Trova E(X) utilizzando la definizione. Trova E(X) utilizzando la formula dell'esercizio 40. Calcola entrambi i lati della disugauglianza di Markov. Una definizione generale Il risultato dell'esercizio 40 può essere utilizzato come base per una formulazione generale del valore atteso che vale nei casi continuo, discreto e misto. In primo luogo, prendiamo il risultato dell'esercizio 40 come definizione di E(X) se X è non negativa. Poi, per un numero reale x, definiamo le parti positiva e negativa di x come segue x⁺ = x se x 0 e x⁺ = 0 se x < 0 x^- = 0 se x 0 e x^- = -x se x < 0 47. Prova che x⁺ 0, x^- 0 x = x⁺ - x^-. |x| = x⁺ + x^-. Infine, se X è una variabile casuale, allora X⁺ e X^-, le parti postiva e negativa di X, sono variabili casuali non negative. Quindi, assumendo che E(X⁺) o E(X^-) (o entrambi) sia finito, possiamo definire E(X) = E(X⁺) - E(X^-) Disuguaglianza di Jensen La prossima serie di esercizi porterà a definire un'importante disugauglianza nota come disuguaglianza di Jensen, così detta in onore di Johan Jensen. Introduciamo in primo luogo alcune definizioni. Una funzione a valori reali g definita su un intervallo S di R è detta convessa su S se per ogni x₀ appartenente a S, esistono numeri a e b (che possono dipendere da x₀) tali che ax₀ + b = g(x₀), ax + b g(x) per x appartenente a S. 48. Interpreta geometricamente la definizione di funzione convessa. La linea y = ax + b è detta linea di supporto a x₀. Puoi essere più familiare con la convessità in termini del seguente teorema di analisi: 49. Prova che g è convessa su S se g ha derivata seconda continua e non negativa su S. Suggerimento: Mostra che la tangente a x₀ è linea di supporto a x₀. 50. Prova la disuguaglianza di Jensen: se X assume valori in un intervallo S e g è convessa su S, allora E[g(X)] g[E(X)] Suggerimento: Nella definizione di convessità sopra riportata, poni x₀ = E(X) e sostituisci x con X. Prendi poi i valori attesi attraverso la disuguaglianza. 51. Supponi che X abbia funzione di densità f(x) = a / x^a^{+ 1} per x > 1, dove a > 1 è un parametro. Si ha allora la distribuzione di Pareto con parametro di forma a. Trova E(X) utilizzando la formula dell'esercizio 40. Trova E(1/X). Mostra che g(x) = 1/x è convessa su (0, ). Verifica la disuguaglianza di Jensen confrontando i risultati di (a) e (b). La disuguaglianza di Jensen si estende semplicemente al caso multidimensionale. La versione bidimensionale è particolarmente importante poiché sarà utilizzata per ricavare molte delle disuguaglianze speciali del prossimo paragrafo. In primo luogo, un sottinsieme S di R² è convesso se u, v S e p [0, 1] implica (1 - p)u + pv S. Una funzione a valori reali g su S è detta convessa se per ogni (x₀, y₀) appartenente a S, esistono numeri a, b e c (dipendenti da (x₀, y₀)) tali che ax₀ + by₀ + c = g(x₀, y₀), ax + by + c g(x, y) per (x, y) appartenente a S. 52. Interpreta geometricamente le nozioni di insieme convesso e funzione convessa. Il piano z = ax + by + c è detto piano di supporto a (x₀, y₀). Dall'analisi, g è convessa su S se g ha derivate seconde continue su S se ha matrice di derivate seconde definita non positiva: g_xx 0, g_yy 0, g_xxg_yy - g_xy² 0 su S. 53. Prova la disuguaglianza di Jensen: se (X, Y) assume valori in un insieme convesso S e g è convessa su S allora E[g(X, Y)] g[E(X), E(Y)]. Suggerimento: nella definizione di convessità, poni x₀= E(X), y₀= E(Y), e sostituisci x con X, y con Y. Prendi poi i valori attesi attraverso la disuguaglianza. 54. Supponi che (X, Y) abbia funzione di densità di probabilità f(x, y) = 2(x + y) per 0 < x < y < 1. Prova che g(x, y) = x² + y² è convessa nel dominio di f. Calcola E(X² + Y²). Calcola [E(X)]² + [E(Y)]². Verifica la disuguaglianza di Jensen confrontando (b) e (c). Sia nel caso monodimensionale che in quello bidimensionale, una funzione g si dice concava se la disuguaglianza della definizione è invertita. Si inverte anche la disguaglianza di Jensen. 55. Supponi che x₁, x₂, ..., x_n siano numeri positivi. Prova che la media aritmetica è almeno maggiore della media geometrica: (x₁x₂··· x_n)^1/n (x₁ + x₂ + ··· + x_n) / n. Suggerimento: sia X uniformemente distribuita su {x₁, x₂, ..., x_n} e sia g(x) = ln(x). Valore atteso condizionato Il valore atteso di una variabile casuale X dipende, ovviamente, dalla misura di probabilità P dell'esperimento. Tale misura di probabilità può essere una misura di probabilità condizionata dato un evento B dell'esperimento (con P(B) > 0). La notazione usuale è E(X | B), e tale valore atteso si calcola attraverso le definizioni riportate all'inizio di questo paragrafo, eccettuato il fatto che la densità condizionata f(x | B) si sostituisce alla densità ordinaria f(x). È molto importante capire che, a parte la notazione, non si introducono nuovi concetti. Il risultati che abbiamo trovato per il valore atteso nel caso generale hanno risultati analoghi nel caso del valore atteso condizionato. 56. Supponi che X abbia funzione di densità f(x) = r exp(-rx) per x > 0, dove r > 0 è un parametro. Si ha allora la distribuzione esponenziale con parametro di velocità r. Per dato t > 0, trova E(X | X > t). 57. Supponi che Y abbia funzione di densità g(n) = (1 - p)^{n - 1}p per n = 1, 2, ... dove 0 < p < 1 è un parametro. Si ha allora la distribuzione geometrica con parametro p. Trova E(Y | Y è pari). 58. Supponi che (X, Y) abbia funzione di densità f(x, y) = x + y per 0 < x < 1, 0 < y < 1. Trova E(XY | Y > X). Più in generale, il valore atteso condizionato, dato il valore di un'altra variabile casuale, è un argomento molto importante che sarà trattato in un altro paragrafo. Laboratorio virtuale > Valore atteso > [1] 2 3 4 5 6 7 Sommario | Applets | Dati | Biografie | Risorse | Indice analitico | ©