Media campionaria e legge dei grandi numeri

2. Media campionaria e legge dei grandi numeri

La media campionaria

Come al solito, il punto da cui muoveremo è un esperimento aleatorio su un certo spazio campionario e con misura di probabilità P. Supponiamo che X sia una variabile casuale a valori reali. Indicheremo la media e la deviazione standard di X con, rispettivamente, µ e d.

Supponiamo ora di eseguire una serie di replicazioni indipendenti di questo esperimento. Ciò definisce un nuovo esperimento costituito da una sequenza di variabili casuali indipendenti, ciascuna distribuita come X:

X₁, X₂, ...,

Ricordiamo che, in termini statistici, (X₁, X₂, ..., X_n) è un campione casuale di dimensione n proveniente dalla distribuzione X, qualunque sia n. La media campionaria è semplicemente la media delle variabili del campione:

M_n = (X₁ + X₂ + ··· + X_n) / n. La media campionaria è una funzione a valori reali di un campione casuale, ed è pertanto una statistica. Come ogni altra statistica, la media campionaria è anch'essa una variabile casuale con la sua distribuzione, il suo valore atteso e la sua varianza. In molti casi la media della distribuzione è ignota, e si usa la media campionaria come stimatore della media della distribuzione. 1. Nell'applet dadi, scegli la variabile casuale media. Per ogni possibile distribuzione degli esiti, inizia con n = 1 dadi e incrementa di uno fino ad arrivare a n = 20 dadi. Osserva la forma e la posizione della funzione di densità ad ogni passo. Con 20 dadi, simula 1000 replicazioni aggiornando ogni 10. Osserva la convergenza della funzione di densità empirica a quella teorica. Proprietà della media campionaria 2. Dimostra che E(M_n) = µ. L'esercizio 1 dimostra che M_n è uno stimatore corretto per µ. Pertanto, quando la media campionaria è utilizzata come stimatore della media della distribuzione, la varianza della media campionaria è l'errore quadratico medio. 3. Dimostrare che var(M_n) = d² / n. Dall'esercizio 3 si osserva che la varianza della media campionaria è funzione crescente rispetto alla varianza della distribuzione e decrescente rispetto alla dimensione del campione. Entrambe queste asserzioni sono intuitivamente sensate se vediamo la media campionaria come uno stimatore della media della distribuzione. 4. Nell'applet dadi, seleziona la variabile casuale media. Per ogni possibile distribuzione degli esiti, inizia con n = 1 dadi e incrementa di uno fino ad arrivare a n = 20 dadi. Osserva che il valore atteso della media campionaria resta costante, mentre la devizione standard decresce (come sappiamo, con velocità inversa alla radice quadrata della dimensione del campione). Simula 1000 replicazioni, aggiornando ogni 10 e osserva la convergenza dei momenti empirici a quelli teorici. 5. Calcola, sui dati di Fisher sugli iris, la media campionaria della variabile lunghezza dei petali in ciascuno dei seguenti casi e confronta i risultati. Tutte le varietà Solo la setosa Solo la versicolor Solo la verginica La legge debole dei grandi numeri Dall'esercizio 3 si nota che var(M_n) 0 as n . Ciò indica che M_n µ per n in media quadratica. 6. Usa la disuguaglianza di Chebyshev per dimostrare che P[|M_n - µ| > r] 0 per n per ogni r > 0. Questo risultato è noto come legge debole dei grandi numeri, e afferma che la media campionaria converge in probabilità alla media della distribuzione. Ricorda che la convergenza in media quadrata implica la convergenza in probabilità. La legge forte dei grandi numeri La legge forte dei grandi numeri afferma che la media campionaria M_n converge quasi sicuramente alla media della distribuzione µ: P(M_n µ as n ) = 1. Come il nome stesso suggerisce, questo risultato è molto più forte di quello presentato poc'anzi. Ciò può essere provato in maniera piuttosto semplice se si assume che il momento centrato di ordine 4 è finito: b₄ = E[(X - µ)⁴] < . Esistono comunque dimostrazioni migliori che non necessitano di questa assunzione (vedi ad esempio il libro Probability and Measure di Patrick Billingsley). 7. Sia Y_i = X_i - µ e sia W_n = Y₁ + Y₂ + ··· + Y_n. Mostra che Y₁, Y₂, ..., Y_n sono indipendenti e identicamente distribuite. E(Y_i) = 0. E(Y_i²) = d². E(Y_i⁴) = b₄. M_n µ per n se e solo se W_n / n 0 as n . Attraverso l'esercizio 7, vogliamo dimostrare che W_n / n 0 per n con probabilità 1. 8. Mostra che W_n / n non converge a 0 se e solo se esiste un numero razionale r > 0 tale che |W_n / n| > r per infiniti n. Dobbiamo pertanto mostrare che l'evento descritto nell'esercizio 8 ha probabilità 0. 9. Dimostra che W_n⁴ è la somma di Y_iY_jY_kY_l per ogni i, j, k, l appartenenti a {1, 2, ..., n}. 10. Mostrare che E(Y_iY_jY_kY_l) = 0 se uno degli indici differisce dagli altri tre. E(Y_i²Y_j²) = d⁴ se i e j sono distinti, ed esistono 3n(n - 1) di questi termini E(W_n⁴). E(Y_i⁴) = b₄ ed esistono n di questi termini E(W_n⁴). 11. Usa i risultati dell'esercizio 10 per dimostrare che E(S_n⁴) Cn² per qualche costante C (indipendente da n). 12. Usa la disuguaglianza di Markov e il risultato dell'esercizio 11 per dimostrare che, per r > 0, P(|W_n / n| > r) = P(W_n⁴ > r⁴n⁴) C / (r⁴n²). 13. Usa il primo lemma di Borel-Cantelli per dimostrare che P(|W_n / n| > r per infiniti n) = 0. 14. Dimostra infine che P(esite un razionale r > 0 tale che |W_n / n| > r per infiniti n) = 0. Simulazioni 15. Nell'applet dadi, seleziona la variabile casuale media select the average random variable. Per ogni possibile distribuzione degli esiti, inizia con n = 1 dadi e incrementa di uno fino ad arrivare a n = 20 dadi. Osserva come la distribuzione della media campionaria aumenta la sua somiglianza con quella di una funzione di densità. Simula 1000 replicazioni, aggiornando ogni 10 e osserva la convergenza della densità empirica della media campionaria alla densità teorica. Molte delle applets di questo progetto simulano esperimenti con un'unica variabile aleatoria di interesse. Quando si fa una simulazione, si generano replicazioni indipendenti dell'esperimento. Nella maggior parte dei casi, l'applet riporta la media della distribuzione numericamente in una tabella e graficamente come centro della barra orizzontale blu sotto il grafico. Ugualmente, la media campionaria è riportata numericamente nella tabella e graficamente come centro della barra rossa orizzontale sotto il grafico. 16. Nell'esperimento binomiale della moneta, la variabile casuale è il numero di teste. Simula 1000 replicazioni aggiornando ogni 10 e osserva la convergenza della media campionaria al valore atteso della distribuzione. 17. Nell'esperimento della concordanza, la variabile casuale è il numero di successi. Simula 1000 replicazioni aggiornando ogni 10 e osserva la convergenza della media campionaria al valore atteso della distribuzione. 18. Replica l'esperimento esponenziale 1000 volte aggiornando ogni 10. Osserva la convergenza della media campionaria al valore atteso della distribuzione. Laboratorio virtuale > Campioni casuali > 1 [2] 3 4 5 6 7 8 9 Sommario | Applets | Dati | Biografie | Risorse | Indice analitico | ©