Valore atteso condizionato

5. Valore atteso condizionato

Al solito, iniziamo con l'introdurre un esperimento casuale definito su un certo sapazio campionario e con misura di probabilità P. Supponiamo che X sia una variabile casuale a valori in un insieme S e che Y sia una variabile casuale a valori in un sottinsieme T di R. In questo paragrafo studieremo il valore atteso condizionato di Y dato X, un concetto di importanza fondamentale sia in probabilità che in statistica. Coma avremo modo di vedere, il valore atteso di Y dato X è la funzione di X che meglio approssima Y in media quadratica. Notiamo che, in generale, X sarà un vettore.

Un'assunzione tecnica che facciamo è che tutte le variabili casuali che si presentano nel valore atteso abbiano momento secondo finito.

La definizione elementare

Notiamo che possiamo pensare (X, Y) come variabile casuale a valori nel sottinsieme S × T. Supponiamo in primo luogo che (X, Y) abbia distribuzione continua con funzione di densità f. Ricordiamo che la densità marginale g di X è data da

g(x) = _T f(x, y)dy per x S.

e che la densità condizionata di Y dato X = x è data da

h(y | x) = f(x, y) / g(x), per x S, y T.

Infine, il valore atteso condizionato di Y dato X = x è semplicemente la media calcolata relativamente alla distribuzione condizionata:

E(Y | X = x) = _T y h(y | x)dy.

Ovviamente, la media condizionata di Y dipende dal dato valore x di X. Per ora, sia u la funzione da S in R definita da

u(x) = E(Y | X = x) per x S.

La funzione u è detta a volte funzione di regressione. La variabile casuale u(X) è detta valore atteso condizionato di Y dato X ed è indicata con E(Y | X).

La definizione generale

La variabile casuale E(Y | X) soddisfa una porprietà fondamentale che la caratterizza tra tutte le funzioni di X.

$Mathematical Exercise$ 1. Supponi che r sia una funzione da S in R. Usa il teorema del cambiamento di variabie per il valore atteso per mostrare che

E[r(X)E(Y | X)] = E[r(X)Y].

Il risultato dell'esercizio 1 varrebbe anche nel caso in cui (X, Y) avesse distribuzione congiunta discreta; la formula sarebbe la stessa, ma con le sommatorie al posto degli integrali.

In realtà il risultato dell'esercizio 1 può essere utilizzato come definizione del valore atteso condizionato, indipendentemente dalla distribuzione congiunta di (X, Y). Quindi, in generale, si definisce E(Y | X) come la variabile casuale che soddisfa la condizione dell'esercizio 1 ed è della forma E(Y | X) = u(X) per qualche funzione u da S in R. Definiamo quindi E(Y | X = x) come u(x).

Proprietà

La prima conseguenza dell'esercizio 1 è una forma molto compatta ed elegante per la legge delle probabilità totali:

$Esercizio teorico$ 2. Prendendo r come la funzione costante a 1 nell'esercizio, prova che

E[E(Y | X)] = E(Y).

$Esercizio teorico$ 3. Prova che, alla luce dell'esercizio 2, la condizione dell'esercizio 1 può essere riespressa come segue: per ogni funzione r da S in R, Y - E(Y | X) e r(X) sono incorrelati.

Il prossimo esercizio prova che la condizione dell'esercizio 1 caratterizza E(Y | X).

$Esercizio teorico$ 4. Supponi che u(X) e v(X) soddisfino la condizione dell'esercizio 1 e quindi anche i risultati degli esercizi 2 e 3. Mostra che

var[u(X) - v(X)] = 0.
u(X) = v(X) (con probabilità 1).

$Esercizio teorico$ 5. Supponi che s sia una funzione da S in R. Usa la caratterizzazione dell'esercizio 1 per mostrare che

E[s(X)Y | X] = s(X)E(Y | X).

La regola seguente generalizza il risultato dell'esercizio 5 ed è detta a volte regola di sostituzione per il valore atteso condizionato.

$Esercizio teorico$ 6. Supponi che s sia una funzione da S × T in R. Prova che

E[s(X, Y) | X = x] = E[s(x, Y) | X = x].

$Esercizio teorico$ 7. Supponi che X e Y siano indipendenti. Usa la caratterizzazione dell'esercizio 1 per mostrare che

E(Y | X) = E(Y).

Usa la definizione generale per ricavare le proprietà degli esercizi seguenti, dove Y e Z sono variabili casuali a valori reali. Nota che si tratta di proprietà omologhe a quelle del valore atteso ordinario

$Esercizio teorico$ 8. Prova che E(Y + Z | X) = E(Y | X) + E(Z | X).

$Esercizio teorico$ 9. Prova che E(cY | X) = cE(Y | X).

$Esercizio teorico$ 10. Prova che se Y 0 allora E(Y | X) 0.

$Esercizio teorico$ 11. Prova che se Y Z allora E(Y | X) E(Z | X).

$Esercizio teorico$ 12. Prova che |E(Y | X)| E(|Y| | X).

Esercizi

$Esercizio teorico$ 13. Supponi che (X, Y) sia distribuito uniformemente sul quadrato R = {(x, y): -6 < x < 6, -6 < y < 6}. Trova E(Y | X).

14. Nell'esperimento bivariato uniforme, seleziona quadrato dal menu a tendina. Simula 2000 replicazioni, aggiornando ogni 10. Nota la relazione tra la nube di punti e il grafico della funzione di regressione.

$Esercizio teorico$ 15. Supponi che (X, Y) sia distribuito uniformemente sul triangolo R = {(x, y): -6 < y < x < 6}. Trova E(Y | X).

16. Nell'esperimento bivariato uniforme, seleziona triangolo dal menu a tendina. Simula 2000 replicazioni, aggiornando ogni 10. Nota la relazione tra la nube di punti e il grafico della funzione di regressione.

$Esercizio teorico$ 17. Supponi che (X, Y) abbia funzione di densità di probabilità f(x, y) = x + y per 0 < x < 1, 0 < y < 1. Trova

E(Y | X)
E(X | Y)

$Esercizio teorico$ 18. Supponi che (X, Y) abbia funzione di densità di probabilità f(x, y) = 2(x + y) per 0 < x < y < 1. Trova

E(Y | X)
E(X | Y)

$Esercizio teorico$ 19. Supponi che (X, Y) abbia funzione di densità di probabilità f(x, y) = 6x²y per 0 < x < 1, 0 < y < 1. Trova

E(Y | X)
E(X | Y)

$Esercizio teorico$ 20. Supponi che (X, Y) abbia funzione di densità di probabilità f(x, y) = 15x²y per 0 < x < y < 1. Trova

E(Y | X)
E(X | Y)

$Esercizio teorico$ 21. Si lanciano due dadi equilibrati e si registrano i punteggi (X₁, X₂). Sia Y = X₁+ X₂ la somma dei punteggi U = min{X₁, X₂} il punteggio minimo. Trova:

E(Y | X₁)
E(U | X₁)
E(Y | U)
E(X₂| X₁)

$Esercizio teorico$ 22. Supponi che X, Y e Z siano variabili casuali con E(Y | X) = X³, E(Z | X) = 1 / (1 + X²). Trova

E[exp(X) Y - sin(X) Z | X].

Probabilità condizionata

La probabilità condizionata di un evento A, dato un vettore casuale X, è un caso particolare del valore atteso condizionato. Definiamo

P(A | X) = E(I_A | X) dove I_A è la variabile indicatore di A.

Le proprietà presentate in precedenza relativamente al valore atteso condizionato hanno, ovviamente, omolghe specifiche per la probabilità condizionata. In particolare, l'esercizio seguente riporta una versione particolare della legge delle probabilità totali:

$Esercizio teorico$ 23. Prova che P(A) = E[P(A | X)].

$Esercizio teorico$ 24. Una scatola contiene 10 monete, indicate con numeri da 0 a 9. La probabilità di testa per la moneta i è i / 9. Si estrae casualmente una moneta dalla scatola e la si lancia. Trova la probabilità che esca testa. Questo problema è un esempio della regola della successione di Laplace,

Il miglior predittore

I prossimi due esercizi mostrano che, tra tutte le funzioni di X, E(Y | X) è il miglior predittore di Y, nel senso che minimizza l'errore quadratico medio. Tale risultato è di importanza fondamentale nei problemi statistici in cui il vettore predittore X può essere osservato, mentre la variabile di risposta Y no.

$Esercizio teorico$ 25. Sia u(X) = E(Y | X) e sia v(X) ogni altra funzione di X. Aggiungendo e sottraendo u(X), espandendo e utilizzando il risultato dell'esercizio 3, mostra che

E[(Y - v(X))²] = E[(Y - u(X))²] + E[(u(X)- v(X))²].

$Esercizio teorico$ 26. Usa il risultato dell'ultimo esercizio per mostrare che, se v è funzione da S in R, allora

E{[E(Y | X) - Y]²} E{[v(X) - Y)²]

e l'uguaglianza vale se e solo se v(X) = E(Y | X) (con probabilità 1).

Supponi che X sia a valori reali. Nel paragrafo su covarianza e correlazione, abbiamo visto che il miglior predittore lineare di Y da X è

Y* = aX + b dove a = cov(X, Y) / var(X) e b = E(Y) - a E(X).

D'altro canto, E(Y | X) è il miglior predittore di Y tra tutte le funzioni di X. Segue che, se E(Y | X) è funzione lineare di X, allora E(Y | X) deve coincidere con Y*.

$Esercizio teorico$ 27. Utilizzando le proprietà del valore atteso condizionato, dimostra direttamente che, se E(Y | X) = aX + b, Allora a e b sono quelle date nella definizione di Y*.

$Esercizio teorico$ 28. Supponi che (X, Y) abbia funzione di densità f(x, y) = x + y per 0 < x < 1, 0 < y < 1.

Trova Y*, miglior predittore lineare di Y da X.
Trova E(Y | X)
Disegna il grafico di Y*(x) e E(Y | X = x), in funzione di x, sullo stesso asse.

$Esercizio teorico$ 29. Supponi che (X, Y) abbia funzione di densità f(x, y) = 2(x + y) per 0 < x < y < 1.

Trova Y*, miglior predittore lineare di Y da X.
Trova E(Y | X)
Disegna il grafico di Y*(x) e E(Y | X = x), in funzione di x, sullo stesso asse.

$Esercizio teorico$ 30. Supponi che (X, Y) abbia funzione di densità f(x, y) = 6x²y per 0 < x < 1, 0 < y < 1.

Trova Y*, miglior predittore lineare di Y da X.
Trova E(Y | X)
Disegna il grafico di Y*(x) e E(Y | X = x), in funzione di x, sullo stesso asse.

$Esercizio teorico$ 31. Supponi che (X, Y) abbia funzione di densità f(x, y) = 15x²y per 0 < x < y < 1.

Trova Y*, miglior predittore lineare di Y da X.
Trova E(Y | X)
Disegna il grafico di Y*(x) e E(Y | X = x), in funzione di x, sullo stesso asse.

L'errore quadratico medio del predittore E(Y | X) sarà studiato più avanti.

Varianza condizionata

La varianza condizionata di Y data X è naturalmente definita come segue:

var(Y | X) = E{[Y - E(Y | X)]² | X}.

$Esercizio teorico$ 32. Mostra che var(Y | X) = E(Y² | X) - [E(Y | X)]².

$Esercizio teorico$ 33. Mostra che var(Y) = E[var(Y | X)] + var[E(Y | X)].

Torniamo allo studio dei predittori della variabile casuale a valori reali Y, e confronta i tre predittori che abbiamo analizzato in termini di errore quadratico medio. In primo luogo, il miglior predittore costante di Y è

µ = E(Y),

con errore quadratico medio var(Y) = E[(Y - µ)²].

Poi, se X è un'altra variabile casuale a valori reali, allora, come abbiamo mostrato nel paragrafo su covarianza e correlazione, il miglior predittore lineare di Y da X è

Y* = E(Y) + [cov(X, Y) / var(X)][X - E(X)],

con errore quadratico medio E[(Y - Y*)] = var(Y)[1 - cor²(X, Y)].

Infine, se X è una generica variabile casuale, allora, come abbiamo mostrato in questo paragrafo, il miglior predittore globale di Y da X è

E(Y | X)

con errore quadratico medio E[var(Y | X)] = var(Y) - var[E(Y | X)].

$Esercizio teorico$ 34. Supponi che (X, Y) abbia funzione di densità f(x, y) = x + y per 0 < x < 1, 0 < y < 1. Continua l'esercizio 28 trovando

var(Y)
var(Y)[1 - cor²(X, Y)]
var(Y) - var[E(Y | X)]

$Esercizio teorico$ 35. Supponi che (X, Y) abbia funzione di densità f(x, y) = 2(x + y) per 0 < x < y < 1. Continua l'esercizio 29 trovando

var(Y)
var(Y)[1 - cor²(X, Y)]
var(Y) - var[E(Y | X)]

$Esercizio teorico$ 36. Supponi che (X, Y) abbia funzione di densità f(x, y) = 6x²y per 0 < x < 1, 0 < y < 1. Continua l'esercizio 30 trovando

var(Y)
var(Y)[1 - cor²(X, Y)]
var(Y) - var[E(Y | X)]

$Esercizio teorico$ 37. Supponi che (X, Y) abbia funzione di densità f(x, y) = 15x²y per 0 < x < 1, 0 < y < 1. Continua l'esercizio 31 trovando

var(Y)
var(Y)[1 - cor²(X, Y)]
var(Y) - var[E(Y | X)]

$Esercizio teorico$ 38. Supponi che X sia distribuita uniformemente su (0, 1), e che, dato X, Y sia distribuita uniformemente su (0, X). Trova

E(Y | X)
var(Y | X)
var(Y)

Somme casuali di variabili

Supponiamo che X₁, X₂, ... siano variabili casuali a valori reali indipendenti e identicamente distribuite. Indichiamo le comuni media, varianza e funzione generatrice dei momenti come segue:

a = E(X_i), b² = var(X_i), M(t) = E[exp(tX_i)].

Supponiamo inoltre che N sia una variabile casuale a valori in {0, 1, 2, ...}, indipendente da X₁, X₂, ... Indichiamo media, varianza e funzione generatrice dei momenti di N come segue:

c = E(N), d² = var(N), G(t) = E(t^N).

Definiamo ora

Y = X₁ + X₂ + ··· + X_N (dove Y = 0 se N = 0)

Notiamo che Y è una somma casuale di variabili; i termini della somma e il numero di termini sono casuali. Questo tipo di variabile casuale si presenta in diversi contesti. Per esempio, N può rappresentare il numero di consumatori che entrano in un negozio in un certo periodo di tempo, e X_i il danaro speso dal consumatore i.

$Esercizio teorico$ 39. Prova che E(Y | N) = Na.

$Esercizio teorico$ 40. Prova che E(Y) = ca.

$Esercizio teorico$ 41. Prova che var(Y | N) = Nb².

$Esercizio teorico$ 42. Prova che var(Y) = cb² + a²d².

$Esercizio teorico$ 43. Prova che E[exp(tY)] = G[M(t)].

$Esercizio teorico$ 44. Nell'esperimento dado-moneta, si lancia un dado equilibrato e poi una moneta bilanciata il numero di volte indicato dal dado. Sia N il punteggio del dado e X il numero di teste.

Trova la distribuzione condizionata di X dato N.
Trova E(X | N).
Trova var(X | N).
Trova E(X).
Trova var(X).

45. Replica l'esperimento dado-moneta 1000 volte, aggiornando ogni 10. Osserva la convergenza di media e deviazione standard empiriche alle loro controparti teoriche.

$Esercizio teorico$ 46. Il numero di consumatori che entrano in un negozio in un'ora è una variabile casuale con media 20 e deviazione standard 3. Ciascun cliente, indipendentemente dagli altri, spende un'ammontare aleatorio di danaro con media 50$ e deviazione standard 5$. Trova media e devizione standard della quantità di danaro spesa nell'ora.

Misture

Supponiamo che X₁, X₂, ... siano variabili casuali a valori reali, e che N sia una variabile casuale a valori in {1, 2, ..., }, indipendente da X₁, X₂, ... Indichiamo medie, varianze e funzioni generatrici dei momenti come segue:

µ_i = E(X_i), d_i² = var(X_i), M_i(t) = E[exp(tX_i)] per ogni i.

Indica la funzione di densità di N come

p_i = P(N = i) for i = 1, 2, ...

Definiamo ora una nuova variabile casuale X attraverso la condizione

X = X_i se e solo se N = i.

Ricordiamo che la distribuzione di X è una mistura delle distribuzioni di X₁, X₂, ...

$Esercizio teorico$ 47. Prova che E(X | N) = µ_N.

$Esercizio teorico$ 48. Prova che E(X) = _i_{= 1, 2, ...} p_i µ_i.

$Esercizio teorico$ 49. Prova che var(X) = _i_{= 1, 2, ...} p_i (d_i² + µ_i²) - (_i_{= 1, 2, ...} p_i µ_i)².

$Esercizio teorico$ 50. Prova che E[exp(tY)] = _i_{= 1, 2, ...} p_i M_i(t).

$Esercizio teorico$ 51. Nell'esperimento moneta-dado, si lancia una moneta sbilanciata con probabilità di testa 1/3. Se esce croce, si lancia un dado equilibrato; se esce testa si lancia un dado piatto uno-sei (le facce 1 e 6 hanno probabilità 1/4 mentre le altre hanno probabilità 1/8). Trova media e deviazione standard del punteggio del dado.

52. Replica l'esperimento moneta-dado 1000 volte, aggiornando ogni 10. Osserva la convergenza di media e deviazione standard empiriche ai loro valori teorici.

Proiezioni

Ricordiamo che l'insieme di variabili casuali a valori reali su un dato spazio di probabilità (ovvero, per un dato esperimento casuale), con momento secondo finito, forma uno spazio vettoriale, con prodotto interno dato da

<U, V> = E(UV).

In questo contesto, supponiamo che Y sia una variabile casuale a valori reali e X una variabile casuale generica. Allora E(Y | X) è semplicemente la proiezione di Y sul sottospazio delle variabili casuali a valori reali che possono essere espresse in funzione di X.