Laboratorio virtuale > Valore atteso > 1 2 3 4 [5] 6 7
Al solito, iniziamo con l'introdurre un esperimento casuale definito su un certo sapazio campionario e con misura di probabilità P. Supponiamo che X sia una variabile casuale a valori in un insieme S e che Y sia una variabile casuale a valori in un sottinsieme T di R. In questo paragrafo studieremo il valore atteso condizionato di Y dato X, un concetto di importanza fondamentale sia in probabilità che in statistica. Coma avremo modo di vedere, il valore atteso di Y dato X è la funzione di X che meglio approssima Y in media quadratica. Notiamo che, in generale, X sarà un vettore.
Un'assunzione tecnica che facciamo è che tutte le variabili casuali che si presentano nel valore atteso abbiano momento secondo finito.
Notiamo che possiamo pensare (X, Y) come variabile casuale a valori nel sottinsieme S × T. Supponiamo in primo luogo che (X, Y) abbia distribuzione continua con funzione di densità f. Ricordiamo che la densità marginale g di X è data da
g(x) = T f(x, y)dy per x S.
e che la densità condizionata di Y dato X = x è data da
h(y | x) = f(x, y) / g(x), per x S, y T.
Infine, il valore atteso condizionato di Y dato X = x è semplicemente la media calcolata relativamente alla distribuzione condizionata:
E(Y | X = x) = T y h(y | x)dy.
Ovviamente, la media condizionata di Y dipende dal dato valore x di X. Per ora, sia u la funzione da S in R definita da
u(x) = E(Y | X = x) per x S.
La funzione u è detta a volte funzione di regressione. La variabile casuale u(X) è detta valore atteso condizionato di Y dato X ed è indicata con E(Y | X).
La variabile casuale E(Y | X) soddisfa una porprietà fondamentale che la caratterizza tra tutte le funzioni di X.
1. Supponi che r sia una funzione da S in R. Usa il teorema del cambiamento di variabie per il valore atteso per mostrare che
E[r(X)E(Y | X)] = E[r(X)Y].
Il risultato dell'esercizio 1 varrebbe anche nel caso in cui (X, Y) avesse distribuzione congiunta discreta; la formula sarebbe la stessa, ma con le sommatorie al posto degli integrali.
In realtà il risultato dell'esercizio 1 può essere utilizzato come definizione del valore atteso condizionato, indipendentemente dalla distribuzione congiunta di (X, Y). Quindi, in generale, si definisce E(Y | X) come la variabile casuale che soddisfa la condizione dell'esercizio 1 ed è della forma E(Y | X) = u(X) per qualche funzione u da S in R. Definiamo quindi E(Y | X = x) come u(x).
La prima conseguenza dell'esercizio 1 è una forma molto compatta ed elegante per la legge delle probabilità totali:
2. Prendendo r come la funzione costante a 1 nell'esercizio, prova che
E[E(Y | X)] = E(Y).
3. Prova che, alla luce dell'esercizio 2, la condizione dell'esercizio 1 può essere riespressa come segue: per ogni funzione r da S in R,
Il prossimo esercizio prova che la condizione dell'esercizio 1 caratterizza E(Y | X).
4. Supponi che u(X) e v(X) soddisfino la condizione dell'esercizio 1 e quindi anche i risultati degli esercizi 2 e 3. Mostra che
5. Supponi che s sia una funzione da S in R. Usa la caratterizzazione dell'esercizio 1 per mostrare che
E[s(X)Y | X] = s(X)E(Y | X).
La regola seguente generalizza il risultato dell'esercizio 5 ed è detta a volte regola di sostituzione per il valore atteso condizionato.
6. Supponi che s sia una funzione da S × T in R. Prova che
E[s(X, Y) | X = x] = E[s(x, Y) | X = x].
7. Supponi che X e Y siano indipendenti. Usa la caratterizzazione dell'esercizio 1 per mostrare che
E(Y | X) = E(Y).
Usa la definizione generale per ricavare le proprietà degli esercizi seguenti, dove Y e Z sono variabili casuali a valori reali. Nota che si tratta di proprietà omologhe a quelle del valore atteso ordinario
8. Prova che E(Y + Z | X) = E(Y | X) + E(Z | X).
9. Prova che E(cY | X) = cE(Y | X).
10. Prova che se Y 0 allora E(Y | X) 0.
11. Prova che se Y Z allora E(Y | X) E(Z | X).
12. Prova che |E(Y | X)| E(|Y| | X).
13. Supponi che (X, Y) sia distribuito uniformemente sul quadrato R = {(x, y): -6 < x < 6, -6 < y < 6}. Trova E(Y | X).
14. Nell'esperimento bivariato uniforme, seleziona quadrato dal menu a tendina. Simula 2000 replicazioni, aggiornando ogni 10. Nota la relazione tra la nube di punti e il grafico della funzione di regressione.
15. Supponi che (X, Y) sia distribuito uniformemente sul triangolo R = {(x, y): -6 < y < x < 6}. Trova E(Y | X).
16. Nell'esperimento bivariato uniforme, seleziona triangolo dal menu a tendina. Simula 2000 replicazioni, aggiornando ogni 10. Nota la relazione tra la nube di punti e il grafico della funzione di regressione.
17. Supponi che (X, Y) abbia funzione di densità di probabilità f(x, y) = x + y per 0 < x < 1, 0 < y < 1. Trova
18. Supponi che (X, Y) abbia funzione di densità di probabilità f(x, y) = 2(x + y) per 0 < x < y < 1. Trova
19. Supponi che (X, Y) abbia funzione di densità di probabilità f(x, y) = 6x2y per 0 < x < 1, 0 < y < 1. Trova
20. Supponi che (X, Y) abbia funzione di densità di probabilità f(x, y) = 15x2y per 0 < x < y < 1. Trova
21. Si lanciano due dadi equilibrati e si registrano i punteggi (X1, X2). Sia Y = X1+ X2 la somma dei punteggi U = min{X1, X2} il punteggio minimo. Trova:
22. Supponi che X, Y e Z siano variabili casuali con E(Y | X) = X3, E(Z | X) = 1 / (1 + X2). Trova
E[exp(X) Y - sin(X) Z | X].
La probabilità condizionata di un evento A, dato un vettore casuale X, è un caso particolare del valore atteso condizionato. Definiamo
P(A | X) = E(IA | X) dove IA è la variabile indicatore di A.
Le proprietà presentate in precedenza relativamente al valore atteso condizionato hanno, ovviamente, omolghe specifiche per la probabilità condizionata. In particolare, l'esercizio seguente riporta una versione particolare della legge delle probabilità totali:
23. Prova che P(A) = E[P(A | X)].
24.
Una scatola contiene 10 monete, indicate con numeri da 0 a 9. La probabilità di testa per la moneta i è
I prossimi due esercizi mostrano che, tra tutte le funzioni di X, E(Y | X) è il miglior predittore di Y, nel senso che minimizza l'errore quadratico medio. Tale risultato è di importanza fondamentale nei problemi statistici in cui il vettore predittore X può essere osservato, mentre la variabile di risposta Y no.
25. Sia u(X) = E(Y | X) e sia v(X) ogni altra funzione di X. Aggiungendo e sottraendo u(X), espandendo e utilizzando il risultato dell'esercizio 3, mostra che
E[(Y - v(X))2] = E[(Y - u(X))2] + E[(u(X) - v(X))2].
26. Usa il risultato dell'ultimo esercizio per mostrare che, se v è funzione da S in R, allora
E{[E(Y | X) - Y]2} E{[v(X) - Y)2]
e l'uguaglianza vale se e solo se v(X) = E(Y | X) (con probabilità 1).
Supponi che X sia a valori reali. Nel paragrafo su covarianza e correlazione, abbiamo visto che il miglior predittore lineare di Y da X è
Y* = aX + b dove a = cov(X, Y) / var(X) e b = E(Y) - a E(X).
D'altro canto, E(Y | X) è il miglior predittore di Y tra tutte le funzioni di X. Segue che, se E(Y | X) è funzione lineare di X, allora E(Y | X) deve coincidere con Y*.
27. Utilizzando le proprietà del valore atteso condizionato, dimostra direttamente che, se E(Y | X) = aX + b, Allora a e b sono quelle date nella definizione di Y*.
28. Supponi che (X, Y) abbia funzione di densità f(x, y) = x + y per 0 < x < 1, 0 < y < 1.
29. Supponi che (X, Y) abbia funzione di densità f(x, y) = 2(x + y) per 0 < x < y < 1.
30. Supponi che (X, Y) abbia funzione di densità f(x, y) = 6x2y per 0 < x < 1, 0 < y < 1.
31. Supponi che (X, Y) abbia funzione di densità f(x, y) = 15x2y per 0 < x < y < 1.
L'errore quadratico medio del predittore E(Y | X) sarà studiato più avanti.
La varianza condizionata di Y data X è naturalmente definita come segue:
var(Y | X) = E{[Y - E(Y | X)]2 | X}.
32. Mostra che var(Y | X) = E(Y2 | X) - [E(Y | X)]2.
33. Mostra che var(Y) = E[var(Y | X)] + var[E(Y | X)].
Torniamo allo studio dei predittori della variabile casuale a valori reali Y, e confronta i tre predittori che abbiamo analizzato in termini di errore quadratico medio. In primo luogo, il miglior predittore costante di Y è
µ = E(Y),
con errore quadratico medio var(Y) = E[(Y - µ)2].
Poi, se X è un'altra variabile casuale a valori reali, allora, come abbiamo mostrato nel paragrafo su covarianza e correlazione, il miglior predittore lineare di Y da X è
Y* = E(Y) + [cov(X, Y) / var(X)][X - E(X)],
con errore quadratico medio E[(Y - Y*)] = var(Y)[1 - cor2(X, Y)].
Infine, se X è una generica variabile casuale, allora, come abbiamo mostrato in questo paragrafo, il miglior predittore globale di Y da X è
E(Y | X)
con errore quadratico medio E[var(Y | X)] = var(Y) - var[E(Y | X)].
34. Supponi che (X, Y) abbia funzione di densità f(x, y) = x + y per 0 < x < 1, 0 < y < 1. Continua l'esercizio 28 trovando
35. Supponi che (X, Y) abbia funzione di densità f(x, y) = 2(x + y) per 0 < x < y < 1. Continua l'esercizio 29 trovando
36. Supponi che (X, Y) abbia funzione di densità f(x, y) = 6x2y per 0 < x < 1, 0 < y < 1. Continua l'esercizio 30 trovando
37. Supponi che (X, Y) abbia funzione di densità f(x, y) = 15x2y per 0 < x < 1, 0 < y < 1. Continua l'esercizio 31 trovando
38. Supponi che X sia distribuita uniformemente su (0, 1), e che, dato X, Y sia distribuita uniformemente su (0, X). Trova
Supponiamo che X1, X2, ... siano variabili casuali a valori reali indipendenti e identicamente distribuite. Indichiamo le comuni media, varianza e funzione generatrice dei momenti come segue:
a = E(Xi), b2 = var(Xi), M(t) = E[exp(tXi)].
Supponiamo inoltre che N sia una variabile casuale a valori in {0, 1, 2, ...}, indipendente da X1, X2, ... Indichiamo media, varianza e funzione generatrice dei momenti di N come segue:
c = E(N), d2 = var(N), G(t) = E(tN).
Definiamo ora
Y = X1 + X2 + ··· + XN (dove Y = 0 se N = 0)
Notiamo che Y è una somma casuale di variabili; i termini della somma e il numero di termini sono casuali. Questo tipo di variabile casuale si presenta in diversi contesti. Per esempio, N può rappresentare il numero di consumatori che entrano in un negozio in un certo periodo di tempo, e Xi il danaro speso dal consumatore i.
39. Prova che E(Y | N) = Na.
40. Prova che E(Y) = ca.
41. Prova che var(Y | N) = Nb2.
42. Prova che var(Y) = cb2 + a2d2.
43. Prova che E[exp(tY)] = G[M(t)].
44. Nell'esperimento dado-moneta, si lancia un dado equilibrato e poi una moneta bilanciata il numero di volte indicato dal dado. Sia N il punteggio del dado e X il numero di teste.
45. Replica l'esperimento dado-moneta 1000 volte, aggiornando ogni 10. Osserva la convergenza di media e deviazione standard empiriche alle loro controparti teoriche.
46. Il numero di consumatori che entrano in un negozio in un'ora è una variabile casuale con media 20 e deviazione standard 3. Ciascun cliente, indipendentemente dagli altri, spende un'ammontare aleatorio di danaro con media 50$ e deviazione standard 5$. Trova media e devizione standard della quantità di danaro spesa nell'ora.
Supponiamo che X1, X2, ... siano variabili casuali a valori reali, e che N sia una variabile casuale a valori in {1, 2, ..., }, indipendente da X1, X2, ... Indichiamo medie, varianze e funzioni generatrici dei momenti come segue:
µi = E(Xi), di2 = var(Xi), Mi(t) = E[exp(tXi)] per ogni i.
Indica la funzione di densità di N come
pi = P(N = i) for i = 1, 2, ...
Definiamo ora una nuova variabile casuale X attraverso la condizione
X = Xi se e solo se N = i.
Ricordiamo che la distribuzione di X è una mistura delle distribuzioni di X1, X2, ...
47. Prova che E(X | N) = µN.
48. Prova che E(X) = i = 1, 2, ... pi µi.
49. Prova che var(X) = i = 1, 2, ... pi (di2 + µi2) - (i = 1, 2, ... pi µi)2.
50. Prova che E[exp(tY)] = i = 1, 2, ... pi Mi(t).
51. Nell'esperimento moneta-dado, si lancia una moneta sbilanciata con probabilità di testa 1/3. Se esce croce, si lancia un dado equilibrato; se esce testa si lancia un dado piatto uno-sei (le facce 1 e 6 hanno probabilità 1/4 mentre le altre hanno probabilità 1/8). Trova media e deviazione standard del punteggio del dado.
52. Replica l'esperimento moneta-dado 1000 volte, aggiornando ogni 10. Osserva la convergenza di media e deviazione standard empiriche ai loro valori teorici.
Ricordiamo che l'insieme di variabili casuali a valori reali su un dato spazio di probabilità (ovvero, per un dato esperimento casuale), con momento secondo finito, forma uno spazio vettoriale, con prodotto interno dato da
<U, V> = E(UV).
In questo contesto, supponiamo che Y sia una variabile casuale a valori reali e X una variabile casuale generica. Allora E(Y | X) è semplicemente la proiezione di Y sul sottospazio delle variabili casuali a valori reali che possono essere espresse in funzione di X.