Laboratorio virtuale > Stima puntuale > 1 2 [3] 4 5 6

3. Massima verosimiglianza


Il metodo

Supponiamo di nuovo di avere una variabile casuale osservabile X, per un certo esperimento, che assuma valori in un insieme S. Supponiamo inoltre che la distribuzione di X dipenda da un parametro ignoto a, suscettibile di assumere valori in uno spazio parametrico A. Più specificamente, indicheremo con f(x | a) la funzione di densità di X in x. In generale, sia X che a sono vettori.

La funzione di verosimiglianza L è la funzione che si ottiene invertendo i ruoli di x e a; ovvero interpretando a come la variabile x come l'informazione nota (cioè il punto di vista della stima):

L(a | x) = f(x | a) per a appartenente a A e x appartenente a S.

Col metodo della massima verosimiglianza, si cerca un valore u(x) del parametro a che massimizzi L(a | x) per ogni x in S. Se riusciamo a trovare tale valore, u(X) è detto stimatore di massima verosimiglianza di a. Il metodo è intuitivamente seducente: cerchiamo di trovare i valori dei parametri che possono aver prodotto con la maggiore probabilità i dati osservati.

Poiché la funzione logaritmo naturale ln è strettamente crescente, il valore massimo di L(a | x), se esiste, si ha allo stesso punto in cui è massima ln[L(a | x)]. Quest'ultima funzione è detta funzione di log-verosimiglianza e in molti casi è più semplice da trattare della funzione di verosmiglianza (di solito perché la densità f(x | a) include una produttoria).

Casi particolari

Un caso particolare importante si ha quando a = (a1, a2, ..., ak) è un vettore di k parametri reali, cosicché A sottinsieme Rk. In questo caso, il problema è massimizzare una funzione di più variabili. Se A è un insieme continuo, si possono utilizzare metodi di analisi: se il valore massimo è ad a (compreso in A), allora L(· | x) ha massimo locale ad a e quindi

(d/dai)L(a | x) = 0 per i = 1, 2, ..., k.

D'altro canto, il punto di massimo può trovarsi sul confine di A, oppure non esistere affatto.

Consideriamo il prossimo caso, dove X = (X1, X2, ..., Xn) è un campione casuale di dimensione n estratto dalla distribuzione di X con funzione di densità g(x | a). Quindi la densità congiunta di X è il prodotto delle densità marginali, per cui la funzione di verosimiglianza, in questo caso, vale

L(a | x) = f(x | a) = g(x1 | a)g(x2 | a)···g(xn | a) dove x = (x1, x2, ..., xn).

Nelle sezioni seguenti, studieremo la stima di massima verosimglianza in alcuni casi speciali classici.

La distribuzione di Bernoulli

Supponiamo di avere una moneta con probabilità di ottenere testa ignota p. La lanciamo n volte e registriamo la sequenza di teste e croci. Pertanto, il vettore dei dati (I1, I2, ..., In) è un campione casuale di dimensione n estratto dalla distribuzione di Bernoulli con probabilità di successo p. Sia Xn = I1 + I2 + ··· + In il numero di teste e Mn = Xn / n la proporzione di teste ottenute (la media campionaria).

Esercizio teorico 1. Supponi che p sia compreso in (0, 1). Prova che lo stimatore di massima verosimiglianza di p è Mn.

Ricorda Mn è anche lo stimatore ottenuto col metodo dei momenti per p.

Esercizio teorico 2. Supponi che la moneta sia equilibrata oppure a due teste, cosicché p appartiene a {1/2, 1}. Mostra che lo stimatore di massima verosimiglianza di è quello riportato qui sotto p e interpreta il risultato:

Un = 1 se Xn = n; Un = 1/2 se Xn < n.

Gli esercizi 1 e 2 mostrano che lo stimatore di massima verosimiglianza di un parametro, esattamente come la soluzione a un qualunque problema di massimizzazione, dipende dal dominio.

Esercizio teorico 3. Prova che

  1. E(Un) = 1 se p = 1, E(Un) = 1/2 + (1/2)n + 1 se p = 1/2.
  2. Un è distorto ma asintoticamente corretto.

Esercizio teorico 4. Prova che

  1. MSE(Un) = 0 se p = 1, MSE(Un) = (1/2)n + 2 se p = 1/2.
  2. Un è consistente.

Esercizio teorico 5. Prova che Un è uniformemente migliore di Mn sullo spazio parametrico {1/2, 1}.

Altre distribuzioni semplici

Nei seguenti esercizi, richiama che se (X1, X2, ..., Xn) è un campione casuale di una distribuzione con media µ e varianza d2, allora gli stimatori ottenuti col metodo dei mometi per µ e d2 valgono, rispettivamente,

  1. Mn = (1 / n)sommatoriaj = 1, ..., n Xj.
  2. Tn2 = (1 / n)sommatoriaj = 1, ..., n (Xj - Mn)2

Ovviamente, Mn è la media campionaria e Tn2 = (n - 1)Sn2 / n dove Sn2 è la varianza campionaria.

Esercizio teorico 6. Supponi che (X1, X2, ..., Xn) sia un campione casuale estratto dalla distribuzione di Poisson con parametro ignoto a > 0. Prova che lo stimatore di massima verosimiglianza per a è Mn.

Esercizio teorico 7. Supponi che (X1, X2, ..., Xn) sia un campione casuale di una distribuzione normale con media ignota µ appartenente a R e varianza d2 > 0. Mostra che gli stimatori di massima verosimiglianza di µ e d2 sono rispettivamente Mn e Tn2.

Esercizio teorico 8. Supponi che (X1, X2, ..., Xn) sia un campione casuale di una distribuzione gamma con parametro di forma k noto e parametro di scala ignoto b > 0. Mostra che lo stimatore si massima verosimiglianza di b è Vn = Mn / k.

Sibulazione 9. Replica la stima della distribuzione gamma 1000 volte, aggiornando ogni 10 , per diversi valori del parametro di forma k e del parametro di scala b. In ciascun caso, confronta lo stimatore ottenuto col metodo dei momenti Un con quello di massima verosimiglianza Vi. Quale stimatore dà risultati migliori in termini di errore quadratico medio?

Esercizio teorico 10. Supponi che (X1, X2, ..., Xn) sia un campione casuale di una distribuzione beta con parametri a > 0 e b = 1. Mostra che lo stimatore di massima verosimiglianza per a è

Vn = -n / sommatoriaj = 1, ..., n ln(Xj).

Simulazione 11. Replica la stima della distribuzione beta 1000 volte, aggiornando ogni 10, per diversi valori di a. In ciascun caso, confronta lo stimatore ottenuto col metodo dei momenti Un con quello di massima verosimiglianza Bn. Quale stimatore dà risultati migliori in termini di errore quadratico medio?

Esercizio teorico 12. Supponi che (X1, X2, ..., Xn) sia un campione casuale estratto da una distribuzione di Pareto con parametro a > 0. Mostra che lo stimatore di massima verosimiglianza di a è

Vn = n / j = 1, ..., n ln(Xj).

La distribuzione uniforme su [0, a]

In questa sezione studieremo uno problema di stima che è fonte di utili riflessioni. In un certo senso, il problema è l'analogo continuo del problema studiato nel paragrafo sulle statistiche d'ordine nel capitolo sui modelli di campionamento finito.

Supponi che (X1, X2, ..., Pn) sia un campione casuale dalla distribuzione uniforme sull'intervallo [0, a], dove a > 0 è un parametro ignoto.

Esercizio teorico 13. Mostra che lo stimatore di a ricavato col metodo dei momenti è Un = 2Mn.

Esercinio teorico 14. Prova che Un è corretto.

Esercizio teorico 15. Prova che var(Un) = a2 / 3n, per cui Un è consistente.

Esercizio teorico 16. Prova che lo stimatore di massima verosimiglianza di a è X(n), ovvero l'n-esima statistica d'ordine.

Esercizio teorico 17. Prova che E[X(n)] = na / (n + 1), so Vn = (n + 1)X(n) / n è corretto.

Esercizio teorico 18. Dimostra che var[Vn] = a2 / [n(n + 2)], so Vn è consistente.

Esercizio teorico 19. Dimostra che l'efficienza relativa asintotica di Vn to Un è infinita.

L'ultimo esercizio dimostra che Vn è uno stimatore migliore di Un; uno stimatore come Vn, il cui errore quadratico medio decresce con velocità 1 / n2, è detto super efficiente. Ora che abbiamo trovato un ottimo stimatore, vogliamo vedere di trovarne uno pessimo. Un candidato naturale è quello basato su X(1), la prima statistica d'ordine.

Esercizio teorico 20. Dimostra che X(1) è distribuito come a - X(n).

Esercizio teorico 21. Prova che E[X(1)] = a / (n + 1), per cui Wn = (n + 1)X(1) è corretto.

Esercizio teorico 22. Dimostra che var[Wn] = na2 / (n + 2), so Wn non è consistente.

Simulazione 23. Replica la stima della distribuzione uniforme 1000 volte, aggiornando ogni 10 runs, per valori diversi di a. In ciascun caso, confronta la distorsione empirica e l'errore quadratico medio degli stimatori coi lorj valori teorici. Ordina le statistiche in base al loro errore quadratico medio empirico.

La proprietà di invarianza

Ritornando al caso generale, supponiamo che h sia una funzione biunivoca dallo spazio parametrico A su un insieme B. Possiamo interpretare b = h(a) come nuovi parametri a valori nello spazio B, ed è semplice riparametrizzare la funzione di densità congiunta utilizzando il nuovo parametro. Sia perciò

f1(x | b) = f[x | h-1(b)] per x appartenente a S, b appartenente a B.

La funzione di verosimiglianza corrispondente è

L1(b | x) = L[h-1(b) | x] per b appartenente a B e x appartenfnte a S.

Esercizio teorico 24. Supponiamo che u(x) appartenente a A massimizzi L(· | x) per ogni x appartenente a S. Dimostra che h[u(x)] appartenente a B massimizzi L1(· | x) per ogni x appartenente a S.

Segue dall'esercizio 17 che se U è uno stimatore di massima verosimiglianza di a, allora V = h(U) è uno stimatore di massima verosimiglianza per b = h(a). Questo risultato è noto come proprietà d'invarianza.

Esercizio teorico 25. Supponi che (X1, X2, ..., Xn) sia un campione casuale estratto da una distribuzione di Poisson con media µ, e sia p = P(Xi = 0) = e. Trova lo stimatore di massima verositiglianza di p in due modi:

  1. Direttamente, trovando la funzione di verosimiglianza che corrisponde al parametro p.
  2. Utilizzando il risultato dell'esercizio 2 e la proprietà di invarianza.

Se la funzione h non è biunivoca, il problema di massimizzazione relativamente al nuovo vettore b = h(a) non è ben definito, poiché non si può parametrizzare la funzione di densità congiunta jn termini di b. Esiste comunque una generalizzazione del problema per questi casi. Definiamo

L1(b | x) = max{L[a | x]: a appartenente a A, h(a) = b} per b appartenente a B e x appartenente a S.

Esercizio teorico 26. Supponiamo di nuovo che u(x) appartenente a A massimizzi L(· | x) per ogni x appartenente a S. Dimostra che h[u(x)] appartenente a B massimizza L1(· | x) per ogni x appartenente a S.

Il risultato di questo esercizio estende la proprietà di invarianza a trasformazioni iniettive del parametro: se U è uno stimatore di massima verosimiglianza per a, allora V = h(U) è uno stimatore di massima verosimiglianza per b = h(a).

Esercizio teorico 27. Supponiamo che (I1, I2, ..., In) sia un campione casuale di dimensione n estratto da una distribuzione di Bernoulli con probabilità di successo ignota p, compresa in (0, 1). Trova lo stimatore di massima verosimiglianza di p(1 - p), ovvero la varianza della distribuzione.

Esercizio teorico 28. Supponi che (X1, X2, ..., Xn) sia un campione casuale di una distribuzione normale con media ignota e reale µ e varianza d2 > 0. Trova lo stimatore di massima verosimiglianza di µ2 + d2.