Laboratorio virtuale > Stima intervallare > 1 [2] 3 4 5 6

2. Stima della media nel modello normale


Concetti preliminari

Supponiamo che X1, X2, ..., Xn sia un campione casuale della distribuzione normale con media µ e varianza d2. In questa sezione ci occuperemo della costruzione di intervalli di confidenza per µ, cioè di uno dei casi più importanti di stima intervallare. Un paragrafo parallelo riguardo ai test sulla media nel modello normale si trova all'interno del capitolo sul test di ipotesi.

Costruiremo gli intervalli di confidenza cercando delle variabili pivot per µ. Il metodo di costruzione dipende dal fatto che d sia noto oppure no; d è quindi un parametro di disturbo riguardo alla stima di µ. Gli elementi fondamentali per la costruzione degli intervalli di confidenza sono la media campionaria e la varianza campionaria

  1. M = (1 / n) sommatoriai = 1, ..., n Xi.
  2. S2 = [n / (n - 1)]sommatoriai = 1, ..., n (Xi - M)2.

e le proprietà di queste statistiche nel caso in cui la distribuzione sia normale. Ricordiamo inoltre che la famiglia normale è una famiglia di posizione e scala.

Intervalli di confidenza per µ con d noto

Supponiamo in primo luogo che d sia; questa assunzione è spesso (ma non sempre) artificiale ricorda che la statistica

Z = (M - µ) / (d / n1/2)

ha distribuzione normale standardizzata ed è quindi pivot per µ. Per p appartenente a (0, 1), sia zp il quantile di ordine p della distribuzione normale standardizzata. Per dati valori di p, zp può essere ottenuto dall'ultima riga della tavola della distribuzione t, o dalla tavola della normale standardizzata, o dall'applet quantile.

Esercizio teorico 1. Usa la variabile pivot Z per mostrare che intervallo di confidenza al livello 1 - a e limite di confidenza inferiore e superiore per µ sono:

  1. [M - z1 - r/2 d / n1/2, M + z1 - r/2 d / n1/2].
  2. M + z1 - r d / n1/2.
  3. M - z1 - r d / n1/2.

Osserva che abbiamo utilizzato code bilanciate nella costruzione dell'intervallo bidirezionale, per cui tale intervallo è simmetrico rispetto alla media campionaria M.

Simulazione 2. Usa l'esperimento di stima della media per impratichirti con la procedura. Seleziona la distribuzione normale e il pivot normale. Usa diversi valori dei parametri, livelli di confidenza, numerosità campionarie e tipi di intervallo. Per ciascuna configurazione, simula 1000 replicazioni aggiornando ogni 10. Osserva che l'intervallo di confidenza cattura con successo la media se e solo se il valore della variabile pivot giace tra i quantili. Nota la dimensione e la posizione degli intervalli di confidenza e quanto bene la proporzione di intervalli "riusciti" approssima il livello di confidenza teorico.

Sia E la distanza tra la media campionaria M e uno dei limiti di confidenza

E = z d / n1/2,

dove z = z1 - r/2 per l'intervallo bidirezionale e z = z1 - r per gli intervalli monodirezionali. Osserva che E è deterministico, e che la lunghezza dell'intervallo bidirezionale è 2E. Il numero E è a volte detto margine d'errore.

Esercizio teorico 3. Prova che

  1. E decrescere al crescere della dimensione del campione n.
  2. E cresce al crescere della devizione standard d
  3. E cresce al crecsere del livello di confidenza 1 - r.

L'esercizio 3(c) mostra un'altra volta che esiste un trade-off tra il livello di confidenza e l'ampiezza dell'intervallo di confidenza. Se n e d sono dati, possiamo ridurre E, e quindi avere un intervallo più piccolo solo al prezzo di ridurre la confidenza nella stima. Al contrario, possiamo aumentare la confidenza nella stima solo al costo di aumentare E. In molti casi, il primo passo del disegno dell'esperimento consiste nel determinare la dimensione del campione necessaria per stimare µ con un dato margine di errore e un dato livello di confidenza.

Esercizio teorico 4. Prova che la dimensione campionaria necessaria per stimare µ con confidenza 1 - r e margine di errore E è

n = ceil[(zd / E)2].

Osserva che n è direttamente proporzionale al quadrato z2 e a d2 e inversamente a E2. Ciò implica che vale una legge dei rendimenti marginali decrescenti nella riduzione del margine d'errore. Per esempio, se vogliamo dimezzare un dato margine d'errore, dobbiamo quadruplicare l'ampiezza del campione.

Intervalli di confidenza per µ con d ignoto

Consideriamo ora il caso, più realistico, in cui anche d è ignoto. Ricorda che

T = (M - µ) / (S / n1/2)

ha distribuzione t di Student con n - 1 gradi di libertà, ed è pertanto elemento pivotale per µ. Per k > 0 e p appartenente a (0, 1), sia tk, p il quantile di ordine p per la distribuzione t con n - 1 gradi di libertà. Per dati valori di k r p, i valori tk, p possono essere ottenuti dalla tavola della distribuzione t o dall'applet quantile.

Esercizio teorico 5. Usa l'elemento pivotale T per mostrare che intervallo di confidenza al livello 1 - r e limite di confidenza inferiore e superiore per µ sono:

  1. [M - tn - 1, 1 - r/2 S / n1/2, M + tn - 1, 1 - r/2 S / n1/2].
  2. M + tn - 1, 1 - r S / n1/2.
  3. M - tn - 1, 1 - r S / n1/2.

Osserva che abbiamo utilizzato code bilanciate nella costruzione dell'intervallo bidirezionale, per cui tale intervallo è simmetrico rispetto alla media campionaria. Osserva inoltre che centro e lunghezza dell'intervallo sono casuali.

Simulazione 6. Usa l'esperimento di stima della media per impratichirti con la procedure. Seleziona la distribuzione normale con elemento pivotale di Student. Usa diversi valori dei parametri, livelli di confidenza, numerosità campionarie e tipi di intervallo. Per ciascuna configurazione, simula 1000 replicazioni aggiornando ogni 10. Osserva che l'intervallo di confidenza cattura con successo la media se e solo se il valore della variabile pivot giace tra i quantili. Nota la dimensione e la posizione degli intervalli di confidenza e quanto bene la proporzione di intervalli "riusciti" approssima il livello di confidenza teorico.

Distribuzioni non normali

Una delle assunzioni fondamentali che abbiamo fatto finora è che la distribuzione sottostante sia normale. Ovviamente, nelle applicazioni pratiche, non possiamo sapere granché della distribuzione che genera i dati. Supponiamo che la distribuzione sottostante non sia normale. Se n è relativamente grande, la distribuzione della media campionaria sarà comunque approssimatamente normale, sulla base del teorema limite centrale, e quindi le conclusioni dovrebbero restare approssimativamente valide. Gli esercizi seguenti trattano della robustezza di questa procedura.

Simulazione 7. Simula l'esperimento di stima della media per impratichirti con la procedure. Seleziona la distribuzione gamma con elemento pivotale di Student. Usa diversi valori dei parametri, livelli di confidenza, numerosità campionarie e tipi di intervallo. Per ciascuna configurazione, simula 1000 replicazioni aggiornando ogni 10. Osserva che l'intervallo di confidenza cattura con successo la media se e solo se il valore della variabile pivot giace tra i quantili. Nota la dimensione e la posizione degli intervalli di confidenza e quanto bene la proporzione di intervalli "riusciti" approssima il livello di confidenza teorico.

Simulazione 8. Nell'esperimento di stima della media, ripeti l'esercizio precedente utilizzando la distribuzione uniforme.

La dimensione minima di n affinché la procedura di test funzioni dipende, ovviamente, dalla distribuzione sottostante; più la distribuzione devia dalla normalità, più osservazioni sono necessarie. Fortunatamente, la convergenza alla normalità nel teorema limite centrale è rapida, per cui, come avrai osservato dagli esercizi, possiamo, nella maggior parte dei casi, cavarcela con dimensioni campionarie relativamente ridotte (30 o più osservazioni).

Esercizi numerici

Esercizio teorico 9. La lunghezza di un certo pezzo meccanico dev'essere 10 centimetri, ma a causa di imperfezioni del processo produttivo, la lunghezza effettiva è distribuita normalmente con media µ e varianza d2. La varianza è dovuta a fattori inerenti al processo produttivi e rimane stabile nel tempo. È noto dai dati storici che d = 0.3. D'altra parte, µ può essere influenzata da vari parametri del processo e quindi può variare di frequente. Un campione di 100 pezzi ha media 10.2. Costruire un intervallo di confidenza al 95% per µ.

Esercizio teorico 10. Supponi che il peso di un pacchetto di patatine (in grammi) sia una variabile casuale con media µ e varianza d2, entrambe ignote. Un campione di 75 pacchetti ha media 250 e deviazione standard 10. Costruisci un intervallo di confidenza al 90% per µ.

Esercizio teorico 11. In un'azienda di telemarketing, la durata di una telefonata (in secondi) è una variabile casuale con media µ e varianza d2, entrambe ignote. Un campione di 50 telefonatè ha durata media 300 e deviazione standard 30. Costruisci l'intervallo di confidenza monodirezionale superiore (al 95%) per µ.

Esercizio teorico 12. In una fattoria, il peso di una pesca (in once) alla raccolta è una variabile casuale con deviazione standard 0.5. Quante pesche si devono esaminare per stimare il peso medio con margine d'errore ħ 0.2 e livello di confidenza del 95%?

Esercizio teorico 13. Il salario orario per un certo lavoro edile è una variabile casuale con deviazione standard 1.25. Quanti lavoratori devono essere estratti per costruire un intervallo di confidenza monodirezionale inferiore al 95% con margine di errore di 0.25?

Esercizio numerico 14. Costruisci l'intervallo di confidenza bidirezionale al 95%, e quelli monodirezionali inferiore e superiore per la velocità della luce, utilizzando i dati di Michelson. In ciascun caso, nota se il valore "vero" giace nell'intervallo di confidenza.

Esercizio numerico 15. Costruisci l'intervallo di confidenza bidirezionale al 95%, e quelli monodirezionali inferiore e superiore per la densità della terra utilizzando i dati di Cavendish. In ciascun caso, nota se il valore "vero" giace nell'intervallo di confidenza.

Esercizio numerico 16. Costruisci l'intervallo di confidenza bidirezionale al 95%, e quelli monodirezionali inferiore e superiore per la parallasse del sole, utilizzando i dati di Short. In ciascun caso, nota se il valore "vero" giace nell'intervallo di confidenza.

Esercizio numerico 17. Per la lunghezza dei petali di iris Setosa sui dati di Fisher sugli iris, costruisci un intervallo di confidenza al 90% per µ.