Stimatori Bayesiani

4. Stimatori Bayesiani

Il metodo

Supponiamo di nuovo di avere una variabile casuale osservabile X, per un certo esperimento, che assuma valori in un insieme S. Supponiamo inoltre che la distribuzione di X dipenda da un parametro ignoto a, suscettibile di assumere valori in uno spazio parametrico A. Come in precedenza, indicheremo con f(x | a) la funzione di densità di X in x.

Nell'analisi Bayesiana, si tratta il vettore di parametri a come una variabile casuale con una certa funzione di densità h(a), con a appartenente ad A. La distribuzione corrisponendente è detta distribuzione a priori di a e ha l'obiettivo di raccogliere le informazioni di cui si dispone (se ce ne sono) sul vettore dei parametri, prima di raccogliere i dati.

Si utilizza poi il teorema di Bayes, che prende il nome da Thomas Bayes, per calcolare la funzione di densità condizionata di a dato X = x appartenente a S:

h(a | x) = f(x | a)h(a) / g(x), per a appartenente ad A e x appartenente a S

dove g è la funzione di densità (marginale) di X. Ricorda che per un dato x appartenente a S, g(x) può essere ottenuta integrando (nel caso continuo) o sommando (nel caso discreto) f(x | a)h(a) per gli a appartenenti ad A. Equivalentemente, g(x) è una costante di normalizzazione per f(x | a)h(a) come funzione di a. La distribuzione condizionata di a dato X = x è detta distribuzione a posteriori, ed è una distribuzione aggiornata utilizzando l'informazione contenuta nei dati.

Se a è un parametro reale, il valore atteso condizionato E(a | X) è lo stimatore Bayesiano di a. Ricorda che E(a | X) è funzione di X e, tra tutte le funzioni di X, è la più vicina ad a in media quadratica.

Famiglie coniugate

In molti casi speciali, possiamo trovare una famiglia parametrica di distribuzioni con la seguente proprietà: se la distribuzione a priori di a appartiene alla famiglia, allora così è anche per la distribuzione a posteriori di a dato X = x. La famiglia si dice coniugata alla distribuzione di X. Le famiglie coniugate sono molto utili dal punto di vista computazionale, poiché si può spesso calcolare la distribuzione a posteriori attraverso una semplice formula che coinvolge i parametri della famiglia senza dover utilizzare direttamente il teorema di Bayes.

La distribuzione di Bernoulli

Supponiamo di avere un moneta non bilanciata con probabilità che esca testa p ignota. Lanciamo la moneta n volte e registriamo il vettore degli esiti I = (I₁, I₂, ..., I_n). Per un dato p, queste variabili formano un campione casuale estratto dalla distribuzione di Bernoulli a parametro p. Sia X_n = I₁ + I₂ + ··· + I_n il numero di teste

Supponiamo ora di assegnare a p distribuzione a priori beta con parametri a e b, dove a e b si scelgono sulla base delle nostre informazioni sulla moneta. Per esempio, se non sappiamo nulla, possiamo porre a = b = 1, cosicché p abbia distribuzione a priori unfiorme su (0, 1). D'altra parte, se crediamo che la moneta sia sbilanciata verso testa con p all'incirca 2 / 3, possiamo porre a = 4 e b = 2 (cosicché il valore atteso della distribuzione a priori risulti 2/3).

$Esercizio teorico$ 1. Prova che la distribuzione a priori di p dato I è una beta a parametri a + X_n, b + (n - X_n).

L'esercizio 1 prova che la distribuzione beta è coniugata alla distribuzione di Bernoulli. Nota inoltre che nella distribuzione a posteriori, il primo parametro della beta è incrementato dal numero di teste, mentre il secondo dal numero di croci.

2. Nell' esperimento della moneta non bilanciata, poni n = 10, p = 0.7, e a = b = 1 (distribuzione a priori uniforme). Simula 100 replicazioni e osserva la forma e la posizione della densità a posteriori dopo ogni replicazione.

$Esercizio teorico$ 3. Prova che lo stimatore Bayesiano di p è U_n = (X_n + a) / (n + a + b).

4. Nell' esperimento della moneta non bilanciata, poni n = 20, p = 0.3, e a = 4 e b = 2. Simula 100 replicazioni e osserva la stima di p e la forma e la posizione della densità a posteriori dopo ogni replicazione.

$Esercizio teorico$ 5. Prova che bias(U_n | p) = (a - pa - pb) / (n + a + b) e quindi U_n è asintoticamente corretto.

Osserva che nell'esercizio 3 non possiamo scegliere a e b per avere U_n corretto, poiché tale scelta coinvolgerebbe in valore vero di p, che non è noto.

6. Nell' esperimento della moneta non bilanciata, poni n = 20, p = 0.8, a = 2 e b = 6. Simula 1000 replicazioni aggiornando ogni 10. Osserva la stima di p e la forma e la posizione della funzione di densità a posteriori ad ogni aggiornamento. Osserva la convergenza della distorsione empirica a quella teorica.

$Esercizio teorico$ 7. Dimostra che l'errore quadratico medio di U_n è quello che segue, e che quindi U_n è consistente:

MSE(U_n | p) = [p(n - 2a² - 2ab) + p²(-n + a² + b² + 2ab) + a²] / (n + a + b)².

8. Nell' esperimento della moneta non bilanciata, poni n = 10, p = 0.7, a = 1 e b = 1. Simula 1000 replicazioni aggiornando ogni 10. Osserva la stima di p e la forma e la posizione della funzione di densità a posteriori ad ogni aggiornamento. Osserva la convergenza dell'errore quadratico medio empirico a quello teorico.

È interessante notare che possiamo scegliere a e b in modo che U_n abbia errore quadratico medio indipendente da p:

$Esercizio teorico$ 9. Prova che se a = b = n^1/2 / 2 allora MSE(U_n | p) = n / [4(n + n^1/2)²] per ogni p.

10. Nell' esperimento della moneta non bilanciata, poni n = 36 e a = b = 3. Modifica p e osserva che l'errore quadratico medio non cambia. Con p = 0.8 simula 1000 replicazioni, aggiornando ogni 10. Osserva la stima di p e la forma e la posizione della funzione di densità a posteriori ad ogni aggiornamento. Osserva la convergenza della distorsione e dell'errore quadratico medio empirici ai loro valori teorici.

Ricorda che la media campionaria M_n = X_n / n (la proporzione di teste) è sia lo stimatore del metodo dei momenti che quello di massima verosimiglianza per p, ed ha errore quadratico medio MSE(M_n | p) = p(1 - p) / n.

$Esercizio teorico$ 11. Disegna i grafici di MSE(U_n | p) dell'esercizio 6 e MSE(M_n | p), in funzione di p, sullo stesso sistema di assi.

Supponiamo ora che la moneta sia bilanciata o a due teste. Diamo a p la distribuzione a priori che segue, dove abbiamo scelto a appartenente a (0, 1), in modo da rispecchiare le nostre conoscenze a priori sulla probabilità che esca testa.

h(1) = a, h(1 / 2) = 1 - a.

$Esercizio teorico$ 12. Prova che la distribuzione a posteriori di p dato I è la seguente. Interpreta i risultati.

h(1 | I) = a / [a + (1 - a) (1 / 2)ⁿ] se X_n = n.
h(1 | I) = 0 se Y_n < n.
h(1 / 2 | I) = 1 - h(1 | I).

$Esercizio teorico$ 13. Prova che lo stimatore Bayesiano di p è

U_n = p_n se X_n = n, U_n = 1 / 2 se X_n < n,

dove p_n = [a + (1 - a)(1 / 2)^{n + 1}] / [a + (1 - a) (1 / 2)ⁿ].

$Esercizio teorico$ 14. Mostra che

E(U_n | p = 1) = p_n.
E(U_n | p = 1 / 2) = (1 / 2)ⁿ p_n + (1 / 2) [1 - (1 / 2)ⁿ].
U_n è asintoticamente corretto.

$Esercizio teorico$ 15. Mostra che

MSE(U_n | p = 1) = (p_n - 1)².
MSE(U_n | p = 1 / 2) = (1 / 2)ⁿ (p_n - 1 / 2)².
U_n è consistente

La distribuzione di Poisson

Supponi che X = (X₁, X₂, ..., X_n) sia un campione casuale di dimensione n dalla distribuzione di Poisson con parametro a. Supponi inoltre che a abbia distribuzione a priori gamma con parametro di forma k e parametro di scala b. Sia

Y_n = X₁ + X₂ + ··· + X_n.

$Esercizio teorico$ 16. Prova che la distribuzione a posteriori di a dato X è una gamma con parametro di forma k + Y_n e parametro di scala b / (nb + 1).

Ne segue che la distribuzione gamma è coniugata alla distribuzione di Poisson.

$Esercizio teorico$ 17. Prova che lo stimatore Bayesiano di a è V_n = (k + Y_n)b / (nb + 1).

$Esercizio teorico$ 18. Dimostra che bias(V_n | µ) = (kb - a) / (nb + 1) e quindi V_n è asintoticamente corretto.

Nota che, anche in questo caso, non possiamo scegliere k e b in modo da avere V_n corretto.

$Esercizio teorico$ 19. Prova che l'errore quadratico medio di V_n è il seguente, e quindi V_n è consistente:

MSE(V_n | a) = [(nb² - 2kb)a + a² + k²b²) / [(nb + 1)²].

La distribuzione normale

Supponi che X = (X₁, X₂, ..., X_n) sia un campione casuale di dimensione n da una distribuzione normale con media µ e varianza d², dove µ è ignoto, mentre d² è noto. Supponi inoltre che µ abbia distribuzione a priori normale con media a e varianza b², ovviamente entrambi noti. Sia

Y_n = (X₁ + X₂ + ··· + X_n).

$Esercizio teorico$ 20. Prova che la distribuzione a posteriori di µ dato X è normale con media e varianza:

E(µ | X) = (Y_nb² + ad²) / (d² + nb²)
var(µ | X) = d²b² / (d² + nb²)

Pertanto, la distribuzione normale è coniugata alla normale con media ignota e varianza nota. Segue inoltre che lo stimatore Bayesiano di µ è

U_n = (Y_nb² + ad²) / (d² + nb²).

$Esercizio teorico$ 21. Dimostra che bias(U_n | µ) = d²(a - µ) / (d² + nb²) e quindi U_n è asintoticamente corretto.

$Esercizio teorico$ 22. Dimostra che MSE(U_n | µ) = [nd²b⁴ + d⁴(a - µ)²] / (d² + nb²)² e quindi U_n è consistente.