Laboratorio virtuale > Valore atteso > 1 2 3 4 [5] 6 7

5. Valore atteso condizionato


Al solito, iniziamo con l'introdurre un esperimento casuale definito su un certo sapazio campionario e con misura di probabilità P. Supponiamo che X sia una variabile casuale a valori in un insieme S e che Y sia una variabile casuale a valori in un sottinsieme T di R. In questo paragrafo studieremo il valore atteso condizionato di Y dato X, un concetto di importanza fondamentale sia in probabilità che in statistica. Coma avremo modo di vedere, il valore atteso di Y dato X è la funzione di X che meglio approssima Y in media quadratica. Notiamo che, in generale, X sarà un vettore.

Un'assunzione tecnica che facciamo è che tutte le variabili casuali che si presentano nel valore atteso abbiano momento secondo finito.

La definizione elementare

Notiamo che possiamo pensare (X, Y) come variabile casuale a valori nel sottinsieme S × T. Supponiamo in primo luogo che (X, Y) abbia distribuzione continua con funzione di densità f. Ricordiamo che la densità marginale g di X è data da

g(x) = integraleT f(x, y)dy per x S.

e che la densità condizionata di Y dato X = x è data da

h(y | x) = f(x, y) / g(x), per x S, y T.

Infine, il valore atteso condizionato di Y dato X = x è semplicemente la media calcolata relativamente alla distribuzione condizionata:

E(Y | X = x) = integraleT y h(y | x)dy.

Ovviamente, la media condizionata di Y dipende dal dato valore x di X. Per ora, sia u la funzione da S in R definita da

u(x) = E(Y | X = x) per x S.

La funzione u è detta a volte funzione di regressione. La variabile casuale u(X) è detta valore atteso condizionato di Y dato X ed è indicata con E(Y | X).

La definizione generale

La variabile casuale E(Y | X) soddisfa una porprietà fondamentale che la caratterizza tra tutte le funzioni di X.

Mathematical Exercise 1. Supponi che r sia una funzione da S in R. Usa il teorema del cambiamento di variabie per il valore atteso per mostrare che

E[r(X)E(Y | X)] = E[r(X)Y].

Il risultato dell'esercizio 1 varrebbe anche nel caso in cui (X, Y) avesse distribuzione congiunta discreta; la formula sarebbe la stessa, ma con le sommatorie al posto degli integrali.

In realtà il risultato dell'esercizio 1 può essere utilizzato come definizione del valore atteso condizionato, indipendentemente dalla distribuzione congiunta di (X, Y). Quindi, in generale, si definisce E(Y | X) come la variabile casuale che soddisfa la condizione dell'esercizio 1 ed è della forma E(Y | X) = u(X) per qualche funzione u da S in R. Definiamo quindi E(Y | X = x) come u(x).

Proprietà

La prima conseguenza dell'esercizio 1 è una forma molto compatta ed elegante per la legge delle probabilità totali:

Esercizio teorico 2. Prendendo r come la funzione costante a 1 nell'esercizio, prova che

E[E(Y | X)] = E(Y).

Esercizio teorico 3. Prova che, alla luce dell'esercizio 2, la condizione dell'esercizio 1 può essere riespressa come segue: per ogni funzione r da S in R, Y - E(Y | X) e r(X) sono incorrelati.

Il prossimo esercizio prova che la condizione dell'esercizio 1 caratterizza E(Y | X).

Esercizio teorico 4. Supponi che u(X) e v(X) soddisfino la condizione dell'esercizio 1 e quindi anche i risultati degli esercizi 2 e 3. Mostra che

  1. var[u(X) - v(X)] = 0.
  2. u(X) = v(X) (con probabilità 1).

Esercizio teorico 5. Supponi che s sia una funzione da S in R. Usa la caratterizzazione dell'esercizio 1 per mostrare che

E[s(X)Y | X] = s(X)E(Y | X).

La regola seguente generalizza il risultato dell'esercizio 5 ed è detta a volte regola di sostituzione per il valore atteso condizionato.

Esercizio teorico 6. Supponi che s sia una funzione da S × T in R. Prova che

E[s(X, Y) | X = x] = E[s(x, Y) | X = x].

Esercizio teorico 7. Supponi che X e Y siano indipendenti. Usa la caratterizzazione dell'esercizio 1 per mostrare che

E(Y | X) = E(Y).

Usa la definizione generale per ricavare le proprietà degli esercizi seguenti, dove Y e Z sono variabili casuali a valori reali. Nota che si tratta di proprietà omologhe a quelle del valore atteso ordinario

Esercizio teorico 8. Prova che E(Y + Z | X) = E(Y | X) + E(Z | X).

Esercizio teorico 9. Prova che E(cY | X) = cE(Y | X).

Esercizio teorico 10. Prova che se Y >= 0 allora E(Y | X) >= 0.

Esercizio teorico 11. Prova che se Y <= Z allora E(Y | X) <= E(Z | X).

Esercizio teorico 12. Prova che |E(Y | X)| <= E(|Y| | X).

Esercizi

Esercizio teorico 13. Supponi che (X, Y) sia distribuito uniformemente sul quadrato R = {(x, y): -6 < x < 6, -6 < y < 6}. Trova E(Y | X).

Simulation Exercise 14. Nell'esperimento bivariato uniforme, seleziona quadrato dal menu a tendina. Simula 2000 replicazioni, aggiornando ogni 10. Nota la relazione tra la nube di punti e il grafico della funzione di regressione.

Esercizio teorico 15. Supponi che (X, Y) sia distribuito uniformemente sul triangolo R = {(x, y): -6 < y < x < 6}. Trova E(Y | X).

Simulazione 16. Nell'esperimento bivariato uniforme, seleziona triangolo dal menu a tendina. Simula 2000 replicazioni, aggiornando ogni 10. Nota la relazione tra la nube di punti e il grafico della funzione di regressione.

Esercizio teorico 17. Supponi che (X, Y) abbia funzione di densità di probabilità f(x, y) = x + y per 0 < x < 1, 0 < y < 1. Trova

  1. E(Y | X)
  2. E(X | Y)

Esercizio teorico 18. Supponi che (X, Y) abbia funzione di densità di probabilità f(x, y) = 2(x + y) per 0 < x < y < 1. Trova

  1. E(Y | X)
  2. E(X | Y)

Esercizio teorico 19. Supponi che (X, Y) abbia funzione di densità di probabilità f(x, y) = 6x2y per 0 < x < 1, 0 < y < 1. Trova

  1. E(Y | X)
  2. E(X | Y)

Esercizio teorico 20. Supponi che (X, Y) abbia funzione di densità di probabilità f(x, y) = 15x2y per 0 < x < y < 1. Trova

  1. E(Y | X)
  2. E(X | Y)

Esercizio teorico 21. Si lanciano due dadi equilibrati e si registrano i punteggi (X1, X2). Sia Y = X1+ X2 la somma dei punteggi U = min{X1, X2} il punteggio minimo. Trova:

  1. E(Y | X1)
  2. E(U | X1)
  3. E(Y | U)
  4. E(X2| X1)

Esercizio teorico 22. Supponi che X, Y e Z siano variabili casuali con E(Y | X) = X3, E(Z | X) = 1 / (1 + X2). Trova

E[exp(X) Y - sin(X) Z | X].

Probabilità condizionata

La probabilità condizionata di un evento A, dato un vettore casuale X, è un caso particolare del valore atteso condizionato. Definiamo

P(A | X) = E(IA | X) dove IA è la variabile indicatore di A.

Le proprietà presentate in precedenza relativamente al valore atteso condizionato hanno, ovviamente, omolghe specifiche per la probabilità condizionata. In particolare, l'esercizio seguente riporta una versione particolare della legge delle probabilità totali:

Esercizio teorico 23. Prova che P(A) = E[P(A | X)].

Esercizio teorico 24. Una scatola contiene 10 monete, indicate con numeri da 0 a 9. La probabilità di testa per la moneta i è i / 9. Si estrae casualmente una moneta dalla scatola e la si lancia. Trova la probabilità che esca testa. Questo problema è un esempio della regola della successione di Laplace,

Il miglior predittore

I prossimi due esercizi mostrano che, tra tutte le funzioni di X, E(Y | X) è il miglior predittore di Y, nel senso che minimizza l'errore quadratico medio. Tale risultato è di importanza fondamentale nei problemi statistici in cui il vettore predittore X può essere osservato, mentre la variabile di risposta Y no.

Esercizio teorico 25. Sia u(X) = E(Y | X) e sia v(X) ogni altra funzione di X. Aggiungendo e sottraendo u(X), espandendo e utilizzando il risultato dell'esercizio 3, mostra che

E[(Y - v(X))2] = E[(Y - u(X))2] + E[(u(X) - v(X))2].

Esercizio teorico 26. Usa il risultato dell'ultimo esercizio per mostrare che, se v è funzione da S in R, allora

E{[E(Y | X) - Y]2} <= E{[v(X) - Y)2]

e l'uguaglianza vale se e solo se v(X) = E(Y | X) (con probabilità 1).

Supponi che X sia a valori reali. Nel paragrafo su covarianza e correlazione, abbiamo visto che il miglior predittore lineare di Y da X è

Y* = aX + b dove a = cov(X, Y) / var(X) e b = E(Y) - a E(X).

D'altro canto, E(Y | X) è il miglior predittore di Y tra tutte le funzioni di X. Segue che, se E(Y | X) è funzione lineare di X, allora E(Y | X) deve coincidere con Y*.

Esercizio teorico 27. Utilizzando le proprietà del valore atteso condizionato, dimostra direttamente che, se E(Y | X) = aX + b, Allora a e b sono quelle date nella definizione di Y*.

Esercizio teorico 28. Supponi che (X, Y) abbia funzione di densità f(x, y) = x + y per 0 < x < 1, 0 < y < 1.

  1. Trova Y*, miglior predittore lineare di Y da X.
  2. Trova E(Y | X)
  3. Disegna il grafico di Y*(x) e E(Y | X = x), in funzione di x, sullo stesso asse.

Esercizio teorico 29. Supponi che (X, Y) abbia funzione di densità f(x, y) = 2(x + y) per 0 < x < y < 1.

  1. Trova Y*, miglior predittore lineare di Y da X.
  2. Trova E(Y | X)
  3. Disegna il grafico di Y*(x) e E(Y | X = x), in funzione di x, sullo stesso asse.

Esercizio teorico 30. Supponi che (X, Y) abbia funzione di densità f(x, y) = 6x2y per 0 < x < 1, 0 < y < 1.

  1. Trova Y*, miglior predittore lineare di Y da X.
  2. Trova E(Y | X)
  3. Disegna il grafico di Y*(x) e E(Y | X = x), in funzione di x, sullo stesso asse.

Esercizio teorico 31. Supponi che (X, Y) abbia funzione di densità f(x, y) = 15x2y per 0 < x < y < 1.

  1. Trova Y*, miglior predittore lineare di Y da X.
  2. Trova E(Y | X)
  3. Disegna il grafico di Y*(x) e E(Y | X = x), in funzione di x, sullo stesso asse.

L'errore quadratico medio del predittore E(Y | X) sarà studiato più avanti.

Varianza condizionata

La varianza condizionata di Y data X è naturalmente definita come segue:

var(Y | X) = E{[Y - E(Y | X)]2 | X}.

Esercizio teorico 32. Mostra che var(Y | X) = E(Y2 | X) - [E(Y | X)]2.

Esercizio teorico 33. Mostra che var(Y) = E[var(Y | X)] + var[E(Y | X)].

Torniamo allo studio dei predittori della variabile casuale a valori reali Y, e confronta i tre predittori che abbiamo analizzato in termini di errore quadratico medio. In primo luogo, il miglior predittore costante di Y è

µ = E(Y),

con errore quadratico medio var(Y) = E[(Y - µ)2].

Poi, se X è un'altra variabile casuale a valori reali, allora, come abbiamo mostrato nel paragrafo su covarianza e correlazione, il miglior predittore lineare di Y da X è

Y* = E(Y) + [cov(X, Y) / var(X)][X - E(X)],

con errore quadratico medio E[(Y - Y*)] = var(Y)[1 - cor2(X, Y)].

Infine, se X è una generica variabile casuale, allora, come abbiamo mostrato in questo paragrafo, il miglior predittore globale di Y da X è

E(Y | X)

con errore quadratico medio E[var(Y | X)] = var(Y) - var[E(Y | X)].

Esercizio teorico 34. Supponi che (X, Y) abbia funzione di densità f(x, y) = x + y per 0 < x < 1, 0 < y < 1. Continua l'esercizio 28 trovando

  1. var(Y)
  2. var(Y)[1 - cor2(X, Y)]
  3. var(Y) - var[E(Y | X)]

Esercizio teorico 35. Supponi che (X, Y) abbia funzione di densità f(x, y) = 2(x + y) per 0 < x < y < 1. Continua l'esercizio 29 trovando

  1. var(Y)
  2. var(Y)[1 - cor2(X, Y)]
  3. var(Y) - var[E(Y | X)]

Esercizio teorico 36. Supponi che (X, Y) abbia funzione di densità f(x, y) = 6x2y per 0 < x < 1, 0 < y < 1. Continua l'esercizio 30 trovando

  1. var(Y)
  2. var(Y)[1 - cor2(X, Y)]
  3. var(Y) - var[E(Y | X)]

Esercizio teorico 37. Supponi che (X, Y) abbia funzione di densità f(x, y) = 15x2y per 0 < x < 1, 0 < y < 1. Continua l'esercizio 31 trovando

  1. var(Y)
  2. var(Y)[1 - cor2(X, Y)]
  3. var(Y) - var[E(Y | X)]

Esercizio teorico 38. Supponi che X sia distribuita uniformemente su (0, 1), e che, dato X, Y sia distribuita uniformemente su (0, X). Trova

  1. E(Y | X)
  2. var(Y | X)
  3. var(Y)

Somme casuali di variabili

Supponiamo che X1, X2, ... siano variabili casuali a valori reali indipendenti e identicamente distribuite. Indichiamo le comuni media, varianza e funzione generatrice dei momenti come segue:

a = E(Xi), b2 = var(Xi), M(t) = E[exp(tXi)].

Supponiamo inoltre che N sia una variabile casuale a valori in {0, 1, 2, ...}, indipendente da X1, X2, ... Indichiamo media, varianza e funzione generatrice dei momenti di N come segue:

c = E(N), d2 = var(N), G(t) = E(tN).

Definiamo ora

Y = X1 + X2 + ··· + XN (dove Y = 0 se N = 0)

Notiamo che Y è una somma casuale di variabili; i termini della somma e il numero di termini sono casuali. Questo tipo di variabile casuale si presenta in diversi contesti. Per esempio, N può rappresentare il numero di consumatori che entrano in un negozio in un certo periodo di tempo, e Xi il danaro speso dal consumatore i.

Esercizio teorico 39. Prova che E(Y | N) = Na.

Esercizio teorico 40. Prova che E(Y) = ca.

Esercizio teorico 41. Prova che var(Y | N) = Nb2.

Esercizio teorico 42. Prova che var(Y) = cb2 + a2d2.

Esercizio teorico 43. Prova che E[exp(tY)] = G[M(t)].

Esercizio teorico 44. Nell'esperimento dado-moneta, si lancia un dado equilibrato e poi una moneta bilanciata il numero di volte indicato dal dado. Sia N il punteggio del dado e X il numero di teste.

  1. Trova la distribuzione condizionata di X dato N.
  2. Trova E(X | N).
  3. Trova var(X | N).
  4. Trova E(X).
  5. Trova var(X).

Simulazione 45. Replica l'esperimento dado-moneta 1000 volte, aggiornando ogni 10. Osserva la convergenza di media e deviazione standard empiriche alle loro controparti teoriche.

Esercizio teorico 46. Il numero di consumatori che entrano in un negozio in un'ora è una variabile casuale con media 20 e deviazione standard 3. Ciascun cliente, indipendentemente dagli altri, spende un'ammontare aleatorio di danaro con media 50$ e deviazione standard 5$. Trova media e devizione standard della quantità di danaro spesa nell'ora.

Misture

Supponiamo che X1, X2, ... siano variabili casuali a valori reali, e che N sia una variabile casuale a valori in {1, 2, ..., }, indipendente da X1, X2, ... Indichiamo medie, varianze e funzioni generatrici dei momenti come segue:

µi = E(Xi), di2 = var(Xi), Mi(t) = E[exp(tXi)] per ogni i.

Indica la funzione di densità di N come

pi = P(N = i) for i = 1, 2, ...

Definiamo ora una nuova variabile casuale X attraverso la condizione

X = Xi se e solo se N = i.

Ricordiamo che la distribuzione di X è una mistura delle distribuzioni di X1, X2, ...

Esercizio teorico 47. Prova che E(X | N) = µN.

Esercizio teorico 48. Prova che E(X) = sommatoriai = 1, 2, ... pi µi.

Esercizio teorico 49. Prova che var(X) = sommatoriai = 1, 2, ... pi (di2 + µi2) - (sommatoriai = 1, 2, ... pi µi)2.

Esercizio teorico 50. Prova che E[exp(tY)] = sommatoriai = 1, 2, ... pi Mi(t).

Esercizio teorico 51. Nell'esperimento moneta-dado, si lancia una moneta sbilanciata con probabilità di testa 1/3. Se esce croce, si lancia un dado equilibrato; se esce testa si lancia un dado piatto uno-sei (le facce 1 e 6 hanno probabilità 1/4 mentre le altre hanno probabilità 1/8). Trova media e deviazione standard del punteggio del dado.

Simulazione 52. Replica l'esperimento moneta-dado 1000 volte, aggiornando ogni 10. Osserva la convergenza di media e deviazione standard empiriche ai loro valori teorici.

Proiezioni

Ricordiamo che l'insieme di variabili casuali a valori reali su un dato spazio di probabilità (ovvero, per un dato esperimento casuale), con momento secondo finito, forma uno spazio vettoriale, con prodotto interno dato da

<U, V> = E(UV).

In questo contesto, supponiamo che Y sia una variabile casuale a valori reali e X una variabile casuale generica. Allora E(Y | X) è semplicemente la proiezione di Y sul sottospazio delle variabili casuali a valori reali che possono essere espresse in funzione di X.