Laboratorio virtuale > Campioni casuali > 1 [2] 3 4 5 6 7 8 9

2. Media campionaria e legge dei grandi numeri


La media campionaria

Come al solito, il punto da cui muoveremo è un esperimento aleatorio su un certo spazio campionario e con misura di probabilità P. Supponiamo che X sia una variabile casuale a valori reali. Indicheremo la media e la deviazione standard di X con, rispettivamente, µ e d.

Supponiamo ora di eseguire una serie di replicazioni indipendenti di questo esperimento. Ciò definisce un nuovo esperimento costituito da una sequenza di variabili casuali indipendenti, ciascuna distribuita come X:

X1, X2, ...,

Ricordiamo che, in termini statistici, (X1, X2, ..., Xn) è un campione casuale di dimensione n proveniente dalla distribuzione X, qualunque sia n. La media campionaria è semplicemente la media delle variabili del campione:

Mn = (X1 + X2 + ··· + Xn) / n.

La media campionaria è una funzione a valori reali di un campione casuale, ed è pertanto una statistica. Come ogni altra statistica, la media campionaria è anch'essa una variabile casuale con la sua distribuzione, il suo valore atteso e la sua varianza. In molti casi la media della distribuzione è ignota, e si usa la media campionaria come stimatore della media della distribuzione.

Simulazione 1. Nell'applet dadi, scegli la variabile casuale media. Per ogni possibile distribuzione degli esiti, inizia con n = 1 dadi e incrementa di uno fino ad arrivare a n = 20 dadi. Osserva la forma e la posizione della funzione di densità ad ogni passo. Con 20 dadi, simula 1000 replicazioni aggiornando ogni 10. Osserva la convergenza della funzione di densità empirica a quella teorica.

Proprietà della media campionaria

Esercizio teorico 2. Dimostra che E(Mn) = µ.

L'esercizio 1 dimostra che Mn è uno stimatore corretto per µ. Pertanto, quando la media campionaria è utilizzata come stimatore della media della distribuzione, la varianza della media campionaria è l'errore quadratico medio.

Esercizio teorico 3. Dimostrare che var(Mn) = d2 / n.

Dall'esercizio 3 si osserva che la varianza della media campionaria è funzione crescente rispetto alla varianza della distribuzione e decrescente rispetto alla dimensione del campione. Entrambe queste asserzioni sono intuitivamente sensate se vediamo la media campionaria come uno stimatore della media della distribuzione.

Simulazione 4. Nell'applet dadi, seleziona la variabile casuale media. Per ogni possibile distribuzione degli esiti, inizia con n = 1 dadi e incrementa di uno fino ad arrivare a n = 20 dadi. Osserva che il valore atteso della media campionaria resta costante, mentre la devizione standard decresce (come sappiamo, con velocità inversa alla radice quadrata della dimensione del campione). Simula 1000 replicazioni, aggiornando ogni 10 e osserva la convergenza dei momenti empirici a quelli teorici.

Esercizio numerico 5. Calcola, sui dati di Fisher sugli iris, la media campionaria della variabile lunghezza dei petali in ciascuno dei seguenti casi e confronta i risultati.

  1. Tutte le varietà
  2. Solo la setosa
  3. Solo la versicolor
  4. Solo la verginica

La legge debole dei grandi numeri

Dall'esercizio 3 si nota che var(Mn) converge a 0 as n converge ainfinito. Ciò indica che Mn converge a µ per n converge ainfinito in media quadratica.

Esercizio teorico 6. Usa la disuguaglianza di Chebyshev per dimostrare che

P[|Mn - µ| > r] converge a 0 per n converge ainfinito per ogni r > 0.

Questo risultato è noto come legge debole dei grandi numeri, e afferma che la media campionaria converge in probabilità alla media della distribuzione. Ricorda che la convergenza in media quadrata implica la convergenza in probabilità.

La legge forte dei grandi numeri

La legge forte dei grandi numeri afferma che la media campionaria Mn converge quasi sicuramente alla media della distribuzione µ:

P(Mn converge a µ as n converge ainfinito) = 1.

Come il nome stesso suggerisce, questo risultato è molto più forte di quello presentato poc'anzi. Ciò può essere provato in maniera piuttosto semplice se si assume che il momento centrato di ordine 4 è finito:

b4 = E[(X - µ)4] < infinito.

Esistono comunque dimostrazioni migliori che non necessitano di questa assunzione (vedi ad esempio il libro Probability and Measure di Patrick Billingsley).

Esercizio teorico 7. Sia Yi = Xi - µ e sia Wn = Y1 + Y2 + ··· + Yn. Mostra che

  1. Y1, Y2, ..., Yn sono indipendenti e identicamente distribuite.
  2. E(Yi) = 0.
  3. E(Yi2) = d2.
  4. E(Yi4) = b4.
  5. Mn converge a µ per n converge a infinito se e solo se Wn / n converge a 0 as n converge a infinito.

Attraverso l'esercizio 7, vogliamo dimostrare che Wn / n converge a 0 per n converges to infinito con probabilità 1.

Esercizio teorico 8. Mostra che Wn / n non converge a 0 se e solo se esiste un numero razionale r > 0 tale che |Wn / n| > r per infiniti n.

Dobbiamo pertanto mostrare che l'evento descritto nell'esercizio 8 ha probabilità 0.

Esercizio teorico 9. Dimostra che Wn4 è la somma di YiYjYkYl per ogni i, j, k, l appartenenti a {1, 2, ..., n}.

Esercizio teorico 10. Mostrare che

  1. E(YiYjYkYl) = 0 se uno degli indici differisce dagli altri tre.
  2. E(Yi2Yj2) = d4 se i e j sono distinti, ed esistono 3n(n - 1) di questi termini E(Wn4).
  3. E(Yi4) = b4 ed esistono n di questi termini E(Wn4).

Esercizio teorico 11. Usa i risultati dell'esercizio 10 per dimostrare che E(Sn4) <= Cn2 per qualche costante C (indipendente da n).

Esercizio teorico 12. Usa la disuguaglianza di Markov e il risultato dell'esercizio 11 per dimostrare che, per r > 0,

P(|Wn / n| > r) = P(Wn4 > r4n4) <= C / (r4n2).

Esercizio teorico 13. Usa il primo lemma di Borel-Cantelli per dimostrare che

P(|Wn / n| > r per infiniti n) = 0.

Esercizio teorico 14. Dimostra infine che

P(esite un razionale r > 0 tale che |Wn / n| > r per infiniti n) = 0.

Simulazioni

Simulazione 15. Nell'applet dadi, seleziona la variabile casuale media select the average random variable. Per ogni possibile distribuzione degli esiti, inizia con n = 1 dadi e incrementa di uno fino ad arrivare a n = 20 dadi. Osserva come la distribuzione della media campionaria aumenta la sua somiglianza con quella di una funzione di densità. Simula 1000 replicazioni, aggiornando ogni 10 e osserva la convergenza della densità empirica della media campionaria alla densità teorica.

Molte delle applets di questo progetto simulano esperimenti con un'unica variabile aleatoria di interesse. Quando si fa una simulazione, si generano replicazioni indipendenti dell'esperimento. Nella maggior parte dei casi, l'applet riporta la media della distribuzione numericamente in una tabella e graficamente come centro della barra orizzontale blu sotto il grafico. Ugualmente, la media campionaria è riportata numericamente nella tabella e graficamente come centro della barra rossa orizzontale sotto il grafico.

Simulazione 16. Nell'esperimento binomiale della moneta, la variabile casuale è il numero di teste. Simula 1000 replicazioni aggiornando ogni 10 e osserva la convergenza della media campionaria al valore atteso della distribuzione.

Simulazione 17. Nell'esperimento della concordanza, la variabile casuale è il numero di successi. Simula 1000 replicazioni aggiornando ogni 10 e osserva la convergenza della media campionaria al valore atteso della distribuzione.

Simulazione 18. Replica l'esperimento esponenziale 1000 volte aggiornando ogni 10. Osserva la convergenza della media campionaria al valore atteso della distribuzione.