Laboratorio virtuale > Stima puntuale > [1] 2 3 4 5 6

1. Stimatori


Il modello statistico di base

Al solito, iniziamo introducendo un esperimento casuale definito su un certo spazio campionario e con misura di probabilità P. Nel modello statistico di base, si ha una variabile casuale X osservabile che assume valori in S. Ricorda che, in generale, X può avere struttura complessa. Per esempio, se l'esperimento consiste nell'estrarre un campione di n oggetti da una popolazione e registrare i valori di interesse, allora

X = (X1, X2, ..., Xn)

dove Xi è il vettore di misurazione per l'oggetto i-esimo. Il caso particolare più importante si ha quando X1, X2,..., Xn sono indipendenti e identicamente distribuite (IID). In questo caso le n variabili casuali costituiscono un campione casuale di dimensione n dalla distribuzione comune

Ricorda anche che una statistica è una funzione osservabile dell'esito di un esperimento casuale:

W = h(X).

Pertanto, una statistica è semplicemente una variabile casuale drivata dai dati X, con l'ipotesi che anche W sia osservabile. Tipicamente, anche W è un vettore.

Parametri

In senso generale, un parametro a è una funzione della distribuzione X, che assume valori in uno spazio parametrico A. Di solito, la distribuzione di X avrà k parametri reali di interesse, cosicché a = (a1, a2, ..., ak), e A è un sottinsieme di Rk. In molti casi, uno o più parametri sono sconosciuti e devono essere stimati a partire dal vettore degli esiti dell'esperimento X. Questo è uno dei problemi più importanti di tutta la statistica e costituisce l'oggetto di questo capitolo.

Proprietà fondamentali degli stimatori

Supponiamo di avere un parametro reale ignoto a che assume valori in uno spazio parametrico Asottinsieme R. Una statistica a valori reali W che si utilizza per stimare a è detta, appunto, stimatore di a. Quindi uno stimatore è una variabile casuale e possiede pertanto una distribuzione, valore atteso, varianza e così via. Quando si esegue l'esperimento e si osservano i dati, il valore osservato w (che è un numero) è la stima del parametro a.

L'errore (variabile casuale) è la differenza tra lo stimatore e il parametro:

W - a.

Il valore atteso dell'errore è detto distorsione (bias):

bias(W) = E(W - a)

Esercizio teorico 1. Usa le proprietà del valore atteso per dimostrare che

bias(W) = E(W) - a.

Pertanto, uno stimatore si dice corretto se la distorsione è 0 per ogni valore di a, o equivalentemente se il valore atteso dello stimatore è il valore "vero" del paraemtro che si stima: E(W) = a for a in A.

La qualità di uno stimatore è spesso misurata attravero l'errore quadratico medio:

MSE(W) = E[(W - a)2].

Esercizio teorico 2. Usa le proprietà di valore atteso e varianza per provare che

MSE(W) = var(W) + bias2(W).

In particolare, se lo stimatore è corretto, l'errore quadratico medio di W è semplicemente la varianza di W.

L'ideale sarebbe avere stimatori corretti e con errore quadratico medio basso. Ciò però non è sempre possibile, e l'esercizio 2 mostra la relazione che intercorre tra distorsione e errore quadratico medio. Nel prossimo paragrafo vedremo un esempio con due stimatori che sono l'uno multiplo dell'altro; uno è corretto ma l'altro ha errore quadratico medio più piccolo.

In ogni caso, se abbiamo due stimatori corretti per a, che indichiamo con U e V, è naturale preferire quello con minore varianza (errore quadratico medio). L'efficienza relativa di V rispetto a U è semplicemente il rapporto delle varianze:

var(U) / var(V).

Proprietà asintotiche

Consideriamo il caso particolare in cui la variabile dei dati X ha forma

X = (X1, X2, ...)

e si ha un parametro di interesse a a valori reali. Di nuovo, questa è la situazione che si ha quando si estraggono a ripetizione dei campioni dalla popolazione; tipicamente, Xi è il vettore delle misurazioni sull'i-esima unità del campione. Quindi, per ogni n, (X1, ..., Xn) sono le osservazioni dal campione di dimensione n. In questa situazione, abbiamo una formula generale che definisce uno stimatore di a per ogni dimensione del campione. Tecnicamente, si ha allora una sequenza di stimatori di a:

Wn = hn(X1, X2, ..., Xn), n = 1, 2, ...

In questo caso si può parlare di proprietà asintotiche degli stimatori per incrementi di n. La maggior parte delle definizioni sono generalizzazioni immediate delle precedenti.

La sequenza di stimatori Wn si dice asintoticamente corretta per a se

bias(Wn) converge a 0 per n converge ainfinito per a in A.

Esercizio teorico 3. Prova che Wn è asintoticamente corretto se e solo se

E(Wn) converge a a per n converge ainfinito per a appartenente a A.

Supponiamo che Un e Vn siano due sequenze di stimatori per a, entrambe asintoticamente corrette. L'efficienza relativa asintotica di Vn rispetto a Un è il seguente limite (se esiste):

limn [var(Un) / var(Vn)].

Ovviamente ci si aspetta che gli stimatori migliorino, in un certo senso, al crescere di n. Più precisamente, la sequenza di stimatori Wn si dice consistente per a se Wn converge in probabilità ad a per n che tende a infinito:

P[|Wn - a| > r] converge a 0 per n converge ainfinito per ogni r > 0 e ogni a appartenente a A.

Esercizio teorico 4. Supponi che MSE(Wn) converge a 0 per n converge ainfinito per ogni a appartenente ad A. Prova che Wn è consistente per a. Suggerimento: Usa la disuguaglianza di Markov.

La condizione presentata nell'esercizio 4 è detta consistenza in media quadratica. Quindi, la consistenza in media quadratica implica la consistenza semplice. Questa è semplicemente una conseguenza del fatto che la convergenza in media quadratica implica la convergenza in probabilità.

Media e varianza campionaria

Supponi che (X1, X2, ..., Xn) sia un campione di dimensione n proveniente dalla distribuzione di una variabile casuale a valori reali X con media µ e varianza d2. Ricorda che media campionaria e varianza sono definite rispettivamente come

Mn = (1 / n)sommatoriai = 1, ..., n Xi.

Sn2 = [1 / (n - 1)]sommatoriai = 1, ..., n (Xi - Mn)2.

Le proprietà di queste statistiche sono esaminate in dettaglio nel capitolo sui campioni casuali. Ribadiremo qui alcune di queste proprietà, focalizzando l'attenzione sulle questioni di stima.

Esercizio teorico 5. Mostra che

  1. E(Mn) = µ, per cui Mn è uno stimatore corretto di µ.
  2. var(Mn) = d2 / n, so Mn è uno stimatore consistente per µ.

Simulazione 6. Nell'esperimento della media campionaria, seleziona la distribuzione gamma. Incrementa la dimensione del campione con la barra di scorrimento e osserva graficamente e numericamente le proprietà di consistenza e correttezza. Simula 1000 replicazioni aggiornando ogni 10.

Simulazione 7. Lancia l'applet stima della distribuzione normale 1000 volte, aggiornando ogni 10, con diversi valori dei parametri. In ciascun caso, confronta la distorsione empirica e l'errore quadratico medio di Mn coi valori teorici.

La consistenza di Mn come stimatore di µ è semplicemente la legge debole dei grandi numeri. Inoltre, ci sono molti casi particolari dei risultati dell'esercizio 5. Vedi il paragrafo Distribuzioni empiriche nel capitolo sui campioni casuali per ulteriori dettagli.

  • Se X = IA, ovvero la variabile indicatrice di un evento A con probabilità p, allora la media campionaria di Xi, i = 1, 2, ..., n è la frequenza relativa fn di A. Quindi, fn è uno stimatore corretto e consistente di p.
  • Se F è la funzione di ripartizione di X, allora dato x, la funzione di ripartizione empirica Fn(x) è semplicemente la media del campione casuale I{Xi <= x}, i = 1, 2, ..., n. Quindi Fn(x) è uno stimatore corretto e consistente di F(x).
  • Se X è discreta e f indica la funzione di densità di X, allora, dato x, la funzione di ensità empirica fn(x) è semplicemente la media campionaria del campione casuale 1{Xi = x}, i = 1, 2, ..., n. Quindi fn(x) è uno stimatore corretto e consistente di f(x).

Simulazione 8. Nell'esperimento della concordanza, la variabile casuale è il numero di successi. Simula 1000 replicazioni aggiornando ogni 10 e osserva la convergenza

  1. della media campionaria al valore atteso della distribuzione
  2. della deviazione standard campionaria a quella della distribuzione
  3. della funzione di densità empirica a quella teorica

Nei seguenti esercizi, assumiamo che d4 = E[(X - µ)4] sia finito.

Esercizio teorico 9. Mostra che

  1. E(Sn2) = d2 per cui Sn2 è uno stimatore corretto di d2.
  2. var(Sn2) = (1 / n)[d4 - (n - 3)d4 / (n - 1)] so Sn2 è uno stimatore consistente di d2.

Simulazione 10. Simula l'esperimento esponenziale 1000 volte aggiornando ogni 10. Osserva la convergenza della deviazione standard campionaria a quella della distribuzione.

Reicorda che, se µ è noto, uno stimatore naturale di d2 è

Wn2 = (1 / n)sumi = 1, ..., n (Xi - µ)2.

Esercizio teorico 11. Dimostra che

  1. E(Wn2) = d2 so Wn2 è uno stimatore corretto di d2.
  2. var(Wn2) = (1 / n)(d4 - d4)so Wn2 è uno stimatore consistente per d2.

Esercizio teorico 12. Prova che l'efficienza relativa asintotica di Sn2 rispetto a Wn2 è 1.

Simulazione 13. Replica la stima della distribuzione normale 1000 volte, aggiornando ogni 10, per valori diversi dei parametri. In ciascun caso, confronta la distorsione empirica e l'errore quadratico medio di Sn2 e Wn2 coi loro valori teorici. Quale stimatore sembra funzionare meglio?

Gli stimatori di media e varianza che abbiamo considerato in questo paragrafo sono in un certo senso naturali. Per altri tipi di parametri però non è immediatamente evidente come ottenere degli stimatori ragionevoli. Nei prossimi paragrafi si esaminerà il problema della costruzione degli stimatori.