Varianza campionaria

4. Varianza campionaria

Il campione casuale

Per iniziare, introduciamo un esperimento aleatorio semplice, definito su un certo spazio campionario e con misura di probabilità P. Supponiamo che X sia una variabile casuale a valori reali, relativa all'esperimento, con valore atteso µ e deviazione standard d. Inoltre, sia

d_k = E[(X - µ)^k]

il momento k-esimo intorno alla media. Osserva in particolare che d₀ = 1, d₁ = 0, d₂= d².

Ripetiamo indefinitamente l'esperimento semplice per avere un nuovo esperimento composito costituito da una sequenza di variabili casuali indipendenti, ciascuna distribuita come X:

X₁, X₂, ...

Per ogni n, (X₁, X₂, ..., X_n) è un campione casuale di dimensione n estratto dalla dsitribuzione di X. Ricorda che la media campionaria

M_n = (1 / n)_{i = 1, ..., n} X_i è una misura naturale del "centro" dei dati, nonché uno stimatore naturale per µ. In questo paragrafo introdurremo statistiche che costituiscono misure naturali della dispersione dei dati e stimatore per la varianza d². Le statistiche di cui parleremo sono differenti a seconda del fatto che µ sia noto oppure no; per questa ragione µ è detto parametro di disturbo relativamente al problema della stima di d². Uno stimatore per d² quando µ è noto Per iniziare, ci occuperemo del caso in cui µ è noto, anche se questa assunzione è solitamente irrealistica all'atto pratico. In questo caso, la stima è semplice. Sia W_n² = (1 / n)_{i = 1, ..., n} (X_i - µ)². 1. Prova che W_n² è la media campionaria di un campione di dimensione n estratto dalla distribuzione di (X - µ)². 2. Usa il risultato dell'esercizio 1 per dimostrare che E[W_n²] = d². var[W_n²] = (d₄ - d⁴) / n. W_n² d² as n quasi certamente. In particolare, 2(a) significa che W_n² è uno stimatore corretto per d². 3. Usa le proprietà della covarianza per provare che cov(M_n, W_n²) = d₃ / n. Ne segue che la media campionaria e la varianza campionaria sono incorrelate se d₃ = 0, e in ogni caso asintoticamente incorrelate. 4. Usa la disuguaglianza di Jensen per mostrare che E(W_n) d. Pertanto, W_n è uno stimatore distorto che tende a sottostimare d. La varianza campionaria Consideriamo ora il caso, più realistico, in cui µ è ignoto. In questo caso un'idea naturale potrebbe essere quella di utilizzare una qualche media dei (X_i - M_n)² per i = 1, 2, ..., n. Si potrebbe pensare di dividere per n; tuttavia un'altra possibilità è di dividere per una costante che ci dia uno stimatore corretto per d². 5. Usa tecniche algebriche di base per dimostrare che _{i = 1, ..., n} (X_i - M_n)² = _{i = 1, ..., n}(X_i - µ)² - n(M_n - µ)². 6. Usa i risultati dell'esercizio 5 e le proprietà del valore atteso per dimostrare che E[_{i = 1, ..., n} (X_i - M_n)²] = (n - 1)d². Segue pertanto dall'esercizio 6 che la variabile casuale S_n² = [1 / (n - 1)]_{i = 1, ..., n} (X_i - M_n)² è uno stimatore corretto per d²; tale statistica è detta varianza campionaria. All'atto pratico, se n è abbastanza grande, fa poca differenza dividere per n piuttosto che per n - 1. Ritornando all'esercizio 5, osserva che S_n² = [n / (n - 1)] W_n² + [n / (n - 1)](M_n - µ)² . 7. Usa la legge forte dei grandi numeri per dimostrare che S_n² d² as n quasi certamente. Ora dimostreremo che S_n² è un multiplo della somma di tutte le differenze al quadrato. Ciò ci permette di identificare formule per la varianza di S_n² e per la covarianza tra M_n e S_n². La formula presentata nell'esercizio seguente è spesso più utile, a fini computazionali, della definizione. 8. Mostra che S_n² = [1 / (n - 1)]_{i = 1, ..., n}X_i² - [n / (n - 1)] M_n². La serie di esercizi che seguono ci permetteranno di calcolare la varianza di S_n² . 9. Dimostra che S_n² = {1 / [2n(n -1)]} _(i, j) (X_i - X_j)². Suggerimento: Parti dal membro di destra, aggiungi e sottrai M_n nel termine (X_i - X_j)², espandi e somma termine a termine. 10. Mostra che, per i e j distinti E[(X_i - Xj)^m] = _{k = 0, ..., m} C(m, k) d_k d_{m - k}. Suggerimento: Aggiungi e sottrai µ al termine E[(X_i - X_j)^m], e usa il teorema binomiale e l'indipendenza. 11. Mostra che var(S_n²) = (1 / n)[d₄ - (n - 3)d⁴ / (n - 1)] utilizzando i seguenti passi: Usa gli esercizi 8 e 9, e il fatto che la somma e la somma di tutte le covarianze prese a coppia. Mostra che cov[(X_i - X_j)², (X_k - X_l)²] = 0 se i = j o k = l o i, j, k, l sono distinti. Prova che cov[(X_i - X_j)², (X_i - X_j)²] = 2d₄ + 2d⁴ se i e j sono distinti ed esistono 2n(n - 1) termini analoghi nella somma delle covarianze in (a). Mostra che cov[(X_i - X_j)², (X_k - X_j)²] = d₄ - d⁴ se i, j, k sono distinti ed esistono 4n(n - 1)(n - 2) termini analoghi nella somma delle covarianze in (a). 12. Prova che var(S_n²) > var(W_n²). Ti sembra intuitivo? 13. Dimostra che var(S_n²) tende a 0 per n che tende a infinito. 14. Usa una tecnica simile a quella proposta nell'esercizio 11 per dimostrare che cov(M_n, S_n²) = d₃ / n. Nota in particolare che cov(M_n, S_n²) = cov(M_n, W_n²). Di nuovo, media e varianza campionaria sono incorrelate se µ₃ = 0, e asintoticamente incorrelate altrimenti. La radice quadrata della varianza campionaria è la deviazione standard campionaria, indicata con S_n. 15. Usa la disuguaglianza di Jensen per dimostare che E(S_n) d. Quindi S_n è uno stimatore distorto che tende a sottostimare d. Simulazioni Molte delle applets contenute in questo progetto sono simulazioni di esperimenti con una variabile casuale semplice. Quando lanci una simulazione, generi delle replicazioni indipendenti dell'esperimento. Nella maggior parte dei casi, l'applet mostra la deviazione standard d della distribuzione sia numericamente in una tabella che graficamente, come lunghezza della barra orizzontale blu sotto il grafico. Quando fai una simulazione, la deviazione standard campionaria S_n è visualizzata numericamente nella tabella e graficamente come lunghezza della barra orizzontale rossa sotto il grafico. 16. Nell'esperimento binomiale della moneta, la variabile casuale è il numero di teste. Simula 1000 replicazioni aggiornando ogni 10 e osserva la convergenza della deviazione standard campionaria a quella della distribuzione. 17. Nel matching experiment, la varibile casuale è il numero di successi. Simula 1000 replicazioni aggiornando ogni 10 e osserva la convergenza della deviazione standard campionaria a quella della distribuzione. 18. Simula 1000 replicazioni dell'esperimento esponenziale aggiornando ogni 10. Osserva la convergenza della deviazione standard campionaria a quella della distribuzione. Analisi esplorativa dei dati La media e la deviazione standard campionaria si usano spesso nell'analisi esplorativa dei dati come misure rispettivamente del centro e della dispersione dei dati. 19. Calcola media e deviazione standard sui dati di Michelson relativi alla velocità della luce. 20. Calcola media e deviazione standard sui dati di Cavendish relativi alla densità della terra. 21. Calcola media e deviazione standard del peso sui dati M&M. 22. Calcola media e deviazione standard della lunghezza dei petali sui dati di Fisher relativi agli iris nei casi seguenti e confronta i risultati. Tutte le varietà Solo la setosa Solo la versicolor Solo la verginica Supponiamo di avere, invece dei dati originari, una distribuzione di frequenza di classi A₁, A₂, ..., A_k, con valori centrali di classe x₁, x₂, ..., x_k, e frequenze n₁, n₂, ..., n_k. Allora n_j = #{i {1, 2, ..., n}: X_i A_j}. In questo caso i valori approssimati di media e varianza sono M = _{j = 1, ..., k} n_j x_j. S² = _{j = 1, ..., k} n_j ( x_j - M)². Queste approssimazioni sono basate sull'ipotesi che i valori centrali di classe rappresentino fedelmente i dati presenti in ogni classe. 23. Nell' istogramma interattivo, seleziona media e deviazione standard. Poni l'ampiezza di classe a 0.1 e costruisci una distribuzione di frequenza con almeno 6 classi non vuote e almeno 10 valori. Calcola manualmente media, varianza e deviazione standarde verifica i risultati con quelli riportati dall'applet. 24. Nell' istogramma interattivo, seleziona media e deviazione standard. Poni l'ampiezza di classe a 0.1 e costruisci una distribuzione di frequenza con almeno 30 valori di ciascuno dei tipi indicati sotto. Incrementa l'ampiezza di classe e osserva la posizione e la dimensione della barra media/deviazione standard. Distribuzione uniforme. Distribuzione simmetrica unimodale. Distribuzione unimodale asimmetrica a destra. Distribuzione unimodale asimmetrica a sinistra. Distribuzione simmetrica bimodale. Distribuzione a forma di u. 25. Nell' istogramma interattivo, costruisci una distribuzione con la più alta deviazione standard possibile. 26. Basandoti sulla risposta all'esercizio 25, definisci le distribuzioni (su un intervallo [a, b] dato) con la deviazione standard più alta possibile. Laboratorio virtuale > Campioni casuali > 1 2 3 [4] 5 6 7 8 9 Sommario | Applets | Dati | Biografie | Risorse | Indice analitico | ©

4. Varianza campionaria

Il campione casuale

Uno stimatore per d2 quando µ è noto

La varianza campionaria

Simulazioni

Analisi esplorativa dei dati

Uno stimatore per `d`² quando µ è noto