Laboratorio virtuale > Campioni casuali > 1 2 3 4 [5] 6 7 8 9

5. Teorema limite centrale


Il teorema

Il teorema limite centrale e la legge dei grandi numeri sono i due teoremi fondamentali della probabilità. In termini rozzi, il teorema limite centrale afferma che la distribuzione della somma di un numero elevato di variabili casuali indipendenti e identicamente distribuite tende distribuirsi normalmente, indipendentemente dalla distribuzione delle singole variabili. Il teorema limite centrale ha un'importanza enorme ed è grazie ad esso che molte procedure statistiche funzionano.

Al solito, introduciamo un esperimento aleatorio semplice, definito su un certo spazio campionario e con misura di probabilità P. Supponiamo che X sia una variabile casuale a valori reali, relativa all'esperimento, con valore atteso µ e deviazione standard d (che assumiamo essere finite). Supponiamo ora di ripetere l'esperimento per formare una sequenza di variabili casuali indipendenti (ciascuna distribuita come X ), cioè campioniamo dalla distribuzione di X):

X1, X2, X3, ...

Sia Yn = sommatoriai = 1, ..., n Xi l'n-esima somma parziale. Nota che Mn = Yn / n è la media campionaria delle prime n variabili del campione.

Esercizio teorico 1. Dimostra che, se X ha funzione di densità f, allora la densità di Yn è f*n, la convoluzionea n-componenti di f.

Simulazione 2. Nell'applet dadi, seleziona la variabile somma. Per ogni tipo di bilanciamento, inizia con n = 1 dado e incrementa di uno il numero di dadi fino ad arrivare a n = 20 dice. Osserva la posizione e la forma della funzione di densità ad ogni passo. Con 20 dadi, simula 1000 replicazioni aggiornando ogni 10. Osserva la convergenza della funzione di densità empirica a quella teorica.

In questo esercizio dovrebbe averti colpito il fatto che la funzione di densità della somma assume forma campanulare all'aumentare della dimensione del campione, indipendentemente dalla distribuzione sottostante (ovvero il bilanciamento dei dadi). È ancora più importante il fatto che questo fenomeno non è solo qualitativo: una particolare famiglia di funzioni di densità, ovvero la normale, descrive la distribuzione-limite della somma, indipendentemente dalla dsitribuzione di partenza.

Esercizio teorico 3. Dimostra (ancora!) che

  1. E(Yn) = nµ.
  2. var(Yn) = nd2.

Simulazione 4. Nell'applet dadi, seleziona la variabile somma. Per ogni tipo di bilanciamento, inizia con n = 1 dado e incrementa di uno il numero di dadi fino ad arrivare a n = 20 dice. Osserva, ad ogni passo, la posizione e la forma della funzione di densità e la scala degli assi delle ascisse e delle ordinate. Con 20 dadi, simula 1000 replicazioni aggiornando ogni 10. Osserva la convergenza della funzione di densità empirica a quella teorica.

Ora esprimeremo il teorema limite centrale in maniera più precisa. Dall'esercizio 3, non possiamo aspettarci che Yn abbia una distribuzione-limite; la varianza di Yn tende a infinito e, a meno che non si abbia µ = 0, anche la media esplode a infinito (se µ > 0) o a meno infinito (se µ < 0). Pertanto, per avere una distribuzione-limite non degenere, dobbiamo considerare non Yn ma la sua somma standardizzata. Poniamo pertanto

Zn = (Yn - nµ) / (n1/2 d).

Esercizio teorico 5. Dimostra che E(Zn) = 0 e var(Zn) = 1.

Esercizio teorico 6. Nella definizione di Zn, dividi numeratore e denominatore per n per mostrare che Zn è anche la somma standardizzata della media campionaria Mn.

Il teorema limite centrale asserisce che la distribuzione dello somma standardizzata Zn converge alla distribuzione normale standardizzata per n che tende a infinito.

Dimostrazione del teorema limite centrale

Dobbiamo dimostrare che

Fn(z) converge a F(z) as n converge a infinito per ogni z appartenente a R,

dove Fn è la funzione di ripartizione di Zn e F la funzione di ripartizione della normale standardizzata. Comunque, dimostreremo che

Gn(t) converge a exp(t2 / 2) as n converge a infinito per ogni t appartenente a R.

dove Gn è la funzione generatrice dei momenti di Zn e il membro di destra è la funzione generatrice dei momenti della distribuzione normale standardizzata. Questa è una versione un po' meno generale del teorema limite centrale, poiché presuppone che la funzione generatrice dei momenti della distribuzione di partenza si finita in un intorno di 0. Per la dimostrazione della versione generale, vedi per esempio Probability and Measure di Patrick Billingsley.

Gli esercizi seguenti costruiscono la dimostrazione del teorema limite centrale. Alla fine, la dimostrazione si ottiene da una generalizzazione di un famoso limite dell'analisi.

Esercizio teorico 7. Supponiamo che an converge a a as n converge a infinito. Dimostra che

(1 + an / n)n converge a ea as n converge a infinito.

Sia ora

Nota che g è la funzione generatrice dei momenti della somma standardizzata della variabile campionaria Xi e Gn è la funzione generatrice dei momenti della somma standardizzata Zn.

Esercizio teorico 8. Dimostra che

  1. g(0) = 1
  2. g'(0) = 0
  3. g''(0) = 1

Esercizio teorico 9. Dimostra che

Zn = (1 / n1/2) sumi = 1, ..., n [(Xi - µ) / d].

Esercizio teorico 10. Usa le proprietà delle funzioni generatrici dei momenti per provare che

Gn(t) = [g(t / n1/2)]n.

Esercizio teorico 11. Richiama il teorema di Taylor per mostrare che

g(t / n1/2) = 1 + g''(sn) t2 /(2n) dove |sn| <= |t| / n1/2.

Esercizio teorico 12. Mostra che, nel contesto dell'esercizio precedente

sn converge a 0 e quindi g''(sn) converge a 1 as n converge a infinito.

Esercizio teorico 13. Dimostra infine che

Gn(t) = [1 + g''(sn) t2 / (2n)]n converge a exp(t2 / 2) as n converge a infinito.

Approssimazioni alla normale

Il teorema limite centrale implica che, se la dimensione del campione n è "grande," allora la distribuzione delle somme parziali Yn (o, equivalentemente, della media campionaria Mn) è approssimativamente normale. Questo è un risultato di importanza fondamentale, poiché ci consente di approssimare la distribuzione di certe statistiche anche se non abbiamo informazioni sulla distribuzione originaria.

Ovviamente il termine "grande" è relativo. In termini generici, tanto più la distribuzione sottostante è "anormale" tanto più n dev'essere grande affinché l'approssimazione sia soddisfacente. Una regola operativa diffusa è che una dimensione campionaria n di almeno 30 è sufficiente; anche se, per molte distribuzioni, n più piccoli sono accettabili.

Esercizio teorico 14. Supponi che X1, X2, ..., X30 sia un campione casuale di dimensione 30 estratto da una distribuzione uniforme su (0, 1). Sia Y = X1 + X2 + ··· + X30. Trova le approssimazioni normali a

  1. P(13 < Y < 18).
  2. Il 90esimo percentile di Y.

Esercizio teorico 15. Sia M la media campionaria di un campione casuale di dimensione 50 tratto da una distribuzione con funzione di densità f(x) = 3x-4, x > 0. Trova le approssimazioni di

  1. P(M > 1.6).
  2. Il 60esimo percentile di M.

Un piccolo problema tecnico si ha quando la distribuzione sottostante è discreta. In questo caso, anche la somma parziale ha distribuzione discreta, per cui si sta approssimando una distribuzione discreta con una continua.

Esercizio teorico 16. Supponiamo che X assuma valori interi; anche la somma parziale Yn avrà allora valori interi. Mostra che, per ogni h appartenente a (0, 1], l'evento {k - h < Yn < k + h} è equivalente a {Yn = k}

Nel contesto dell'esercizio precedente, diversi valori di h conducono a diverse approssimazioni, anche se gli eventi sono equivalenti. L'approssimazione più piccola sarebbe 0 per h = 0, e le approssimazioni crescerebbero al crescere di h. È d'uso suddividere la differenza ponendo h = 0.5. Ciò è detto talvolta correzione per la continuità. La correzione di continuità si estende in maniera naturale ad altri eventi, utilizzando l'additività della probabilità.

Esercizio teorico 17. Sia Y la somma dei punteggi di 20 dadi equilibrati. Calcola l'approssimazione normale a

P(60 <= Y <= 75).

Simulazione 18. Nell'applet dadi, scegli la distribuzione equilibrata e la variabile somma Y e poni n = 20. Simula 1000 replicazioni aggiornando ogni 10. Calcola i valori seguenti e confrontali coi risultati ottenuti nell'esercizio precedente:

  1. P(60 <= Y <= 75).
  2. La frequenza relativa dell'evento {60 <= Y20 <= 75}

Approssimazione normale alla distribuzione gamma

Se Y ha distribuzione gamma con parametro di forma k e parametro di scala b, e se k è un intero positivo, allora

Y = sumi = 1, ..., n Xi

dove X1, X2, ..., Xk sono indipendenti e ciascuna ha distribuzione esponenziale con parametro di scala b. Ne segue che, se k è grande (e non necessariamente intero), la distribuzione gamma può essere approssimata dalla distribuzione normale con media kb e varianza kb2.

Simulazione 19. Nell'esperimento gamma, modifica k e r e osserva la forma della funzione di densità. Con k = 10 e b = 2, simula 1000 replicazioni aggiornando ogni 10 e osserva la convergenza della funzione di densità empirica a quella teorica.

Esercizio teorico 20. Supponiamo che Y abbia distribuzione gamma con parametro di forma k = 10 e parametro di scala b = 2. Trova le approssimazioni normali a

  1. P(18 < Y < 23).
  2. L'80esimo percentile di Y.

Approssimazione normale alla distribuzione chi-quadro

La distribuzione chi-quadro con n gradi di libertà equivale a una distribuzione gamma con k = n / 2 e r = 1 / 2. Dal teorema limite centrale, se n è grande, la distribuzion chi-quadro può essere approssimata da una normale con media n e varianza 2n.

Simulazione 21. Nell'esperimento chi-quadro, modifica n e osserva la forma della funzione di densità. Simula 1000 replicazioni (aggiornamento ogni 10) con n = 20 e osserva la convergenza della funzione di densità empirica a quella teorica.

Esercizio teorico 22. Si abbia Y con distribuzione chi-quadro con n = 20 gradi di libertà. Trovare le approssimazioni normali a

  1. P(18 < Y < 25).
  2. Il 75esimo percentile di Y.

Approssimazione normale alla distribuzione binomiale

Se X ha distribuzione binomiale con parametri n e p, allora

X = sommatoriai = 1, ..., n Ii

dove I1, I2, ..., In sono variabili indicatore indipendenti con P(Ij = 1) = p per ogni j. Ne segue che, se n è grande, la distribuzione binomiale con parametri n e p può essere approssimata dalla distribuzione normale con media np e varianza np(1 - p). La regola operativa è che n deve essere grande abbastanza per avere np >= 5 e n(1 - p) >= 5.

Simulazione 23. Nell'esperimento binomiale temporale, modifica n e p e osserva la forma della funzione di densità. Con n = 50 e p = 0.3, simula 1000 replicazioni aggiornando ogni 10 e calcola:

  1. P(12 <= X <= 16)
  2. La frequenza relativa dell'evento {12 <= X <= 16}.

Esercizio teorico 24. Supponiamo che X abbia distribuzione binomial con parametri n = 50 e p = 0.3. Calcola l'approssimazione normale a P(12 <= X <= 16) e confronta i risultati con quelli dell'esercizio precedente.

Approssimazione normale alla distribuzione di Poisson

Se Y ha distribuzione di Poisson con media n, allora

Y = sommatoriai = 1, ..., n Xi

dove X1, X2, ..., Xk sono indipendenti e hanno ciascuno distribuzione di Poisson a media 1. Segue dal teorema limite centrale che, se µ è grande (e non necessariamente intero), la distribuzione di Poisson a parametro µ può essere approssimata con una normale a media µ e varianza µ.

Esercizio teorico 25. Supponi che Y abbia distribuzione di Poisson con media 20. Trova l'approssimazione normale a

P(16 <= Y <= 13)