Massima verosimiglianza

3. Massima verosimiglianza

Il metodo

Supponiamo di nuovo di avere una variabile casuale osservabile X, per un certo esperimento, che assuma valori in un insieme S. Supponiamo inoltre che la distribuzione di X dipenda da un parametro ignoto a, suscettibile di assumere valori in uno spazio parametrico A. Più specificamente, indicheremo con f(x | a) la funzione di densità di X in x. In generale, sia X che a sono vettori.

La funzione di verosimiglianza L è la funzione che si ottiene invertendo i ruoli di x e a; ovvero interpretando a come la variabile x come l'informazione nota (cioè il punto di vista della stima):

L(a | x) = f(x | a) per a appartenente a A e x appartenente a S.

Col metodo della massima verosimiglianza, si cerca un valore u(x) del parametro a che massimizzi L(a | x) per ogni x in S. Se riusciamo a trovare tale valore, u(X) è detto stimatore di massima verosimiglianza di a. Il metodo è intuitivamente seducente: cerchiamo di trovare i valori dei parametri che possono aver prodotto con la maggiore probabilità i dati osservati.

Poiché la funzione logaritmo naturale ln è strettamente crescente, il valore massimo di L(a | x), se esiste, si ha allo stesso punto in cui è massima ln[L(a | x)]. Quest'ultima funzione è detta funzione di log-verosimiglianza e in molti casi è più semplice da trattare della funzione di verosmiglianza (di solito perché la densità f(x | a) include una produttoria).

Casi particolari

Un caso particolare importante si ha quando a = (a₁, a₂, ..., a_k) è un vettore di k parametri reali, cosicché A R^k. In questo caso, il problema è massimizzare una funzione di più variabili. Se A è un insieme continuo, si possono utilizzare metodi di analisi: se il valore massimo è ad a (compreso in A), allora L(· | x) ha massimo locale ad a e quindi

(d/da_i)L(a | x) = 0 per i = 1, 2, ..., k.

D'altro canto, il punto di massimo può trovarsi sul confine di A, oppure non esistere affatto.

Consideriamo il prossimo caso, dove X = (X₁, X₂, ..., X_n) è un campione casuale di dimensione n estratto dalla distribuzione di X con funzione di densità g(x | a). Quindi la densità congiunta di X è il prodotto delle densità marginali, per cui la funzione di verosimiglianza, in questo caso, vale

L(a | x) = f(x | a) = g(x₁ | a)g(x₂ | a)···g(x_n | a) dove x = (x₁, x₂, ..., x_n).

Nelle sezioni seguenti, studieremo la stima di massima verosimglianza in alcuni casi speciali classici.

La distribuzione di Bernoulli

Supponiamo di avere una moneta con probabilità di ottenere testa ignota p. La lanciamo n volte e registriamo la sequenza di teste e croci. Pertanto, il vettore dei dati (I₁, I₂, ..., I_n) è un campione casuale di dimensione n estratto dalla distribuzione di Bernoulli con probabilità di successo p. Sia X_n = I₁ + I₂ + ··· + I_n il numero di teste e M_n = X_n / n la proporzione di teste ottenute (la media campionaria).

$Esercizio teorico$ 1. Supponi che p sia compreso in (0, 1). Prova che lo stimatore di massima verosimiglianza di p è M_n.

Ricorda M_n è anche lo stimatore ottenuto col metodo dei momenti per p.

$Esercizio teorico$ 2. Supponi che la moneta sia equilibrata oppure a due teste, cosicché p appartiene a {1/2, 1}. Mostra che lo stimatore di massima verosimiglianza di è quello riportato qui sotto p e interpreta il risultato:

U_n = 1 se X_n = n; U_n = 1/2 se X_n < n.

Gli esercizi 1 e 2 mostrano che lo stimatore di massima verosimiglianza di un parametro, esattamente come la soluzione a un qualunque problema di massimizzazione, dipende dal dominio.

$Esercizio teorico$ 3. Prova che

E(U_n) = 1 se p = 1, E(U_n) = 1/2 + (1/2)^{n + 1} se p = 1/2.
U_n è distorto ma asintoticamente corretto.

$Esercizio teorico$ 4. Prova che

MSE(U_n) = 0 se p = 1, MSE(U_n) = (1/2)^{n
+ 2} se p = 1/2.
U_n è consistente.

$Esercizio teorico$ 5. Prova che U_n è uniformemente migliore di M_n sullo spazio parametrico {1/2, 1}.

Altre distribuzioni semplici

Nei seguenti esercizi, richiama che se (X₁, X₂, ..., X_n) è un campione casuale di una distribuzione con media µ e varianza d², allora gli stimatori ottenuti col metodo dei mometi per µ e d² valgono, rispettivamente,

M_n = (1 / n)_{j
= 1, ..., n} X_j.
T_n² = (1 / n)_{j
= 1, ..., n} (X_j - M_n)²

Ovviamente, M_n è la media campionaria e T_n² = (n - 1)S_n² / n dove S_n² è la varianza campionaria.

$Esercizio teorico$ 6. Supponi che (X₁, X₂, ..., X_n) sia un campione casuale estratto dalla distribuzione di Poisson con parametro ignoto a > 0. Prova che lo stimatore di massima verosimiglianza per a è M_n.

$Esercizio teorico$ 7. Supponi che (X₁, X₂, ..., X_n) sia un campione casuale di una distribuzione normale con media ignota µ appartenente a R e varianza d² > 0. Mostra che gli stimatori di massima verosimiglianza di µ e d² sono rispettivamente M_n e T_n².

$Esercizio teorico$ 8. Supponi che (X₁, X₂, ..., X_n) sia un campione casuale di una distribuzione gamma con parametro di forma k noto e parametro di scala ignoto b > 0. Mostra che lo stimatore si massima verosimiglianza di b è V_n = M_n / k.

9. Replica la stima della distribuzione gamma 1000 volte, aggiornando ogni 10 , per diversi valori del parametro di forma k e del parametro di scala b. In ciascun caso, confronta lo stimatore ottenuto col metodo dei momenti U_n con quello di massima verosimiglianza V_i. Quale stimatore dà risultati migliori in termini di errore quadratico medio?

$Esercizio teorico$ 10. Supponi che (X₁, X₂, ..., X_n) sia un campione casuale di una distribuzione beta con parametri a > 0 e b = 1. Mostra che lo stimatore di massima verosimiglianza per a è

V_n = -n / _{j
= 1, ..., n ln(Xj}).

11. Replica la stima della distribuzione beta 1000 volte, aggiornando ogni 10, per diversi valori di a. In ciascun caso, confronta lo stimatore ottenuto col metodo dei momenti U_n con quello di massima verosimiglianza B_n. Quale stimatore dà risultati migliori in termini di errore quadratico medio?

$Esercizio teorico$ 12. Supponi che (X₁, X₂, ..., X_n) sia un campione casuale estratto da una distribuzione di Pareto con parametro a > 0. Mostra che lo stimatore di massima verosimiglianza di a è

V_n = n / _{j
= 1, ..., n} ln(X_j).

La distribuzione uniforme su [0, `a`]

In questa sezione studieremo uno problema di stima che è fonte di utili riflessioni. In un certo senso, il problema è l'analogo continuo del problema studiato nel paragrafo sulle statistiche d'ordine nel capitolo sui modelli di campionamento finito.

Supponi che (X₁, X₂, ..., P_n) sia un campione casuale dalla distribuzione uniforme sull'intervallo [0, a], dove a > 0 è un parametro ignoto.

$Esercizio teorico$ 13. Mostra che lo stimatore di a ricavato col metodo dei momenti è U_n = 2M_n.

$Esercinio teorico$ 14. Prova che U_n è corretto.

$Esercizio teorico$ 15. Prova che var(U_n) = a² / 3n, per cui U_n è consistente.

$Esercizio teorico$ 16. Prova che lo stimatore di massima verosimiglianza di a è X_(n), ovvero l'n-esima statistica d'ordine.

$Esercizio teorico$ 17. Prova che E[X_(n)] = na / (n + 1), so V_n = (n + 1)X_(n) / n è corretto.

$Esercizio teorico$ 18. Dimostra che var[V_n] = a² / [n(n + 2)], so V_n è consistente.

$Esercizio teorico$ 19. Dimostra che l'efficienza relativa asintotica di V_n to U_n è infinita.

L'ultimo esercizio dimostra che V_n è uno stimatore migliore di U_n; uno stimatore come V_n, il cui errore quadratico medio decresce con velocità 1 / n², è detto super efficiente. Ora che abbiamo trovato un ottimo stimatore, vogliamo vedere di trovarne uno pessimo. Un candidato naturale è quello basato su X₍₁₎, la prima statistica d'ordine.

$Esercizio teorico$ 20. Dimostra che X₍₁₎ è distribuito come a - X_(n).

$Esercizio teorico$ 21. Prova che E[X₍₁₎] = a / (n + 1), per cui W_n = (n + 1)X₍₁₎ è corretto.

$Esercizio teorico$ 22. Dimostra che var[W_n] = na² / (n + 2), so W_n non è consistente.

23. Replica la stima della distribuzione uniforme 1000 volte, aggiornando ogni 10 runs, per valori diversi di a. In ciascun caso, confronta la distorsione empirica e l'errore quadratico medio degli stimatori coi lorj valori teorici. Ordina le statistiche in base al loro errore quadratico medio empirico.

La proprietà di invarianza

Ritornando al caso generale, supponiamo che h sia una funzione biunivoca dallo spazio parametrico A su un insieme B. Possiamo interpretare b = h(a) come nuovi parametri a valori nello spazio B, ed è semplice riparametrizzare la funzione di densità congiunta utilizzando il nuovo parametro. Sia perciò

f₁(x | b)= f[x | h^-1(b)] per x appartenente a S, b appartenente a B.

La funzione di verosimiglianza corrispondente è

L₁(b | x) = L[h^-1(b) | x] per b appartenente a B e x appartenfnte a S.

$Esercizio teorico$ 24. Supponiamo che u(x) appartenente a A massimizzi L(· | x) per ogni x appartenente a S. Dimostra che h[u(x)] appartenente a B massimizzi L₁(· | x) per ogni x appartenente a S.

Segue dall'esercizio 17 che se U è uno stimatore di massima verosimiglianza di a, allora V = h(U) è uno stimatore di massima verosimiglianza per b = h(a). Questo risultato è noto come proprietà d'invarianza.

$Esercizio teorico$ 25. Supponi che (X₁, X₂, ..., X_n) sia un campione casuale estratto da una distribuzione di Poisson con media µ, e sia p = P(X_i = 0) = e^-µ. Trova lo stimatore di massima verositiglianza di p in due modi:

Direttamente, trovando la funzione di verosimiglianza che corrisponde al parametro p.
Utilizzando il risultato dell'esercizio 2 e la proprietà di invarianza.

Se la funzione h non è biunivoca, il problema di massimizzazione relativamente al nuovo vettore b = h(a) non è ben definito, poiché non si può parametrizzare la funzione di densità congiunta jn termini di b. Esiste comunque una generalizzazione del problema per questi casi. Definiamo

L₁(b | x) = max{L[a | x]: a appartenente a A, h(a) = b} per b appartenente a B e x appartenente a S.

$Esercizio teorico$ 26. Supponiamo di nuovo che u(x) appartenente a A massimizzi L(· | x) per ogni x appartenente a S. Dimostra che h[u(x)] appartenente a B massimizza L₁(· | x) per ogni x appartenente a S.

Il risultato di questo esercizio estende la proprietà di invarianza a trasformazioni iniettive del parametro: se U è uno stimatore di massima verosimiglianza per a, allora V = h(U) è uno stimatore di massima verosimiglianza per b = h(a).

$Esercizio teorico$ 27. Supponiamo che (I₁, I₂, ..., I_n) sia un campione casuale di dimensione n estratto da una distribuzione di Bernoulli con probabilità di successo ignota p, compresa in (0, 1). Trova lo stimatore di massima verosimiglianza di p(1 - p), ovvero la varianza della distribuzione.

$Esercizio teorico$ 28. Supponi che (X₁, X₂, ..., X_n) sia un campione casuale di una distribuzione normale con media ignota e reale µ e varianza d² > 0. Trova lo stimatore di massima verosimiglianza di µ² + d².