Laboratorio virtuale > Campioni casuali > 1 2 3 [4] 5 6 7 8 9

4. Varianza campionaria


Il campione casuale

Per iniziare, introduciamo un esperimento aleatorio semplice, definito su un certo spazio campionario e con misura di probabilità P. Supponiamo che X sia una variabile casuale a valori reali, relativa all'esperimento, con valore atteso µ e deviazione standard d. Inoltre, sia

dk = E[(X - µ)k]

il momento k-esimo intorno alla media. Osserva in particolare che d0 = 1, d1 = 0, d2 = d2.

Ripetiamo indefinitamente l'esperimento semplice per avere un nuovo esperimento composito costituito da una sequenza di variabili casuali indipendenti, ciascuna distribuita come X:

X1, X2, ...

Per ogni n, (X1, X2, ..., Xn) è un campione casuale di dimensione n estratto dalla dsitribuzione di X. Ricorda che la media campionaria

Mn = (1 / n)sommatoriai = 1, ..., n Xi

è una misura naturale del "centro" dei dati, nonché uno stimatore naturale per µ. In questo paragrafo introdurremo statistiche che costituiscono misure naturali della dispersione dei dati e stimatore per la varianza d2. Le statistiche di cui parleremo sono differenti a seconda del fatto che µ sia noto oppure no; per questa ragione µ è detto parametro di disturbo relativamente al problema della stima di d2.

Uno stimatore per d2 quando µ è noto

Per iniziare, ci occuperemo del caso in cui µ è noto, anche se questa assunzione è solitamente irrealistica all'atto pratico. In questo caso, la stima è semplice. Sia

Wn2 = (1 / n)sommatoriai = 1, ..., n (Xi - µ)2.

Esercizio teorico 1. Prova che Wn2 è la media campionaria di un campione di dimensione n estratto dalla distribuzione di (X - µ)2.

Esercizio teorico 2. Usa il risultato dell'esercizio 1 per dimostrare che

  1. E[Wn2] = d2.
  2. var[Wn2] = (d4 - d4) / n.
  3. Wn2 converge a d2 as n converge a infinito quasi certamente.

In particolare, 2(a) significa che Wn2 è uno stimatore corretto per d2.

Esercizio teorico 3. Usa le proprietà della covarianza per provare che

cov(Mn, Wn2) = d3 / n.

Ne segue che la media campionaria e la varianza campionaria sono incorrelate se d3 = 0, e in ogni caso asintoticamente incorrelate.

Esercizio teorico 4. Usa la disuguaglianza di Jensen per mostrare che E(Wn) <= d.

Pertanto, Wn è uno stimatore distorto che tende a sottostimare d.

La varianza campionaria

Consideriamo ora il caso, più realistico, in cui µ è ignoto. In questo caso un'idea naturale potrebbe essere quella di utilizzare una qualche media dei (Xi - Mn)2 per i = 1, 2, ..., n. Si potrebbe pensare di dividere per n; tuttavia un'altra possibilità è di dividere per una costante che ci dia uno stimatore corretto per d2.

Esercizio teorico 5. Usa tecniche algebriche di base per dimostrare che

sommatoriai = 1, ..., n (Xi - Mn)2 = sommatoriai = 1, ..., n (Xi - µ)2 - n(Mn - µ)2.

Esercizio teorico 6. Usa i risultati dell'esercizio 5 e le proprietà del valore atteso per dimostrare che

E[sommatoriai = 1, ..., n (Xi - Mn)2] = (n - 1)d2.

Segue pertanto dall'esercizio 6 che la variabile casuale

Sn2 = [1 / (n - 1)]sommatoriai = 1, ..., n (Xi - Mn)2

è uno stimatore corretto per d2; tale statistica è detta varianza campionaria. All'atto pratico, se n è abbastanza grande, fa poca differenza dividere per n piuttosto che per n - 1. Ritornando all'esercizio 5, osserva che

Sn2 = [n / (n - 1)] Wn2 + [n / (n - 1)](Mn - µ)2 .

Esercizio teorico 7. Usa la legge forte dei grandi numeri per dimostrare che

Sn2 converge a d2 as n converge a infinito

quasi certamente.

Ora dimostreremo che Sn2 è un multiplo della somma di tutte le differenze al quadrato. Ciò ci permette di identificare formule per la varianza di Sn2 e per la covarianza tra Mn e Sn2.

La formula presentata nell'esercizio seguente è spesso più utile, a fini computazionali, della definizione.

Esercizio teorico 8. Mostra che

Sn2 = [1 / (n - 1)]sommatoriai = 1, ..., n Xi2 - [n / (n - 1)] Mn2.

La serie di esercizi che seguono ci permetteranno di calcolare la varianza di Sn2 .

Esercizio teorico 9. Dimostra che

Sn2 = {1 / [2n(n -1)]} sommatoria(i, j) (Xi - Xj)2.

Suggerimento: Parti dal membro di destra, aggiungi e sottrai Mn nel termine (Xi - Xj)2, espandi e somma termine a termine.

Esercizio teorico 10. Mostra che, per i e j distinti

E[(Xi - Xj)m] = sommatoriak = 0, ..., m C(m, k) dk dm - k.

Suggerimento: Aggiungi e sottrai µ al termine E[(Xi - Xj)m], e usa il teorema binomiale e l'indipendenza.

Esercizio teorico 11. Mostra che var(Sn2) = (1 / n)[d4 - (n - 3)d4 / (n - 1)] utilizzando i seguenti passi:

  1. Usa gli esercizi 8 e 9, e il fatto che la somma e la somma di tutte le covarianze prese a coppia.
  2. Mostra che cov[(Xi - Xj)2, (Xk - Xl)2] = 0 se i = j o k = l o i, j, k, l sono distinti.
  3. Prova che cov[(Xi - Xj)2, (Xi - Xj)2] = 2d4 + 2d4 se i e j sono distinti ed esistono 2n(n - 1) termini analoghi nella somma delle covarianze in (a).
  4. Mostra che cov[(Xi - Xj)2, (Xk - Xj)2] = d4 - d4 se i, j, k sono distinti ed esistono 4n(n - 1)(n - 2) termini analoghi nella somma delle covarianze in (a).

Esercizio teorico 12. Prova che var(Sn2) > var(Wn2). Ti sembra intuitivo?

Esercizio teorico 13. Dimostra che var(Sn2) tende a 0 per n che tende a infinito.

Esercizio teorico 14. Usa una tecnica simile a quella proposta nell'esercizio 11 per dimostrare che

cov(Mn, Sn2) = d3 / n.

Nota in particolare che cov(Mn, Sn2) = cov(Mn, Wn2). Di nuovo, media e varianza campionaria sono incorrelate se µ3 = 0, e asintoticamente incorrelate altrimenti.

La radice quadrata della varianza campionaria è la deviazione standard campionaria, indicata con Sn.

Esercizio teorico 15. Usa la disuguaglianza di Jensen per dimostare che E(Sn) <= d.

Quindi Sn è uno stimatore distorto che tende a sottostimare d.

Simulazioni

Molte delle applets contenute in questo progetto sono simulazioni di esperimenti con una variabile casuale semplice. Quando lanci una simulazione, generi delle replicazioni indipendenti dell'esperimento. Nella maggior parte dei casi, l'applet mostra la deviazione standard d della distribuzione sia numericamente in una tabella che graficamente, come lunghezza della barra orizzontale blu sotto il grafico. Quando fai una simulazione, la deviazione standard campionaria Sn è visualizzata numericamente nella tabella e graficamente come lunghezza della barra orizzontale rossa sotto il grafico.

Simulazione 16. Nell'esperimento binomiale della moneta, la variabile casuale è il numero di teste. Simula 1000 replicazioni aggiornando ogni 10 e osserva la convergenza della deviazione standard campionaria a quella della distribuzione.

Simulazione 17. Nel matching experiment, la varibile casuale è il numero di successi. Simula 1000 replicazioni aggiornando ogni 10 e osserva la convergenza della deviazione standard campionaria a quella della distribuzione.

Simulazione 18. Simula 1000 replicazioni dell'esperimento esponenziale aggiornando ogni 10. Osserva la convergenza della deviazione standard campionaria a quella della distribuzione.

Analisi esplorativa dei dati

La media e la deviazione standard campionaria si usano spesso nell'analisi esplorativa dei dati come misure rispettivamente del centro e della dispersione dei dati.

Esercizio numerico 19. Calcola media e deviazione standard sui dati di Michelson relativi alla velocità della luce.

Esercizio numerico 20. Calcola media e deviazione standard sui dati di Cavendish relativi alla densità della terra.

Esercizio numerico 21. Calcola media e deviazione standard del peso sui dati M&M.

Esercizio numerico 22. Calcola media e deviazione standard della lunghezza dei petali sui dati di Fisher relativi agli iris nei casi seguenti e confronta i risultati.

  1. Tutte le varietà
  2. Solo la setosa
  3. Solo la versicolor
  4. Solo la verginica

Supponiamo di avere, invece dei dati originari, una distribuzione di frequenza di classi A1, A2, ..., Ak, con valori centrali di classe x1, x2, ..., xk, e frequenze n1, n2, ..., nk. Allora

nj = #{i in {1, 2, ..., n}: Xi in Aj}.

In questo caso i valori approssimati di media e varianza sono

Queste approssimazioni sono basate sull'ipotesi che i valori centrali di classe rappresentino fedelmente i dati presenti in ogni classe.

Simulazione 23. Nell' istogramma interattivo, seleziona media e deviazione standard. Poni l'ampiezza di classe a 0.1 e costruisci una distribuzione di frequenza con almeno 6 classi non vuote e almeno 10 valori. Calcola manualmente media, varianza e deviazione standarde verifica i risultati con quelli riportati dall'applet.

Simulazione 24. Nell' istogramma interattivo, seleziona media e deviazione standard. Poni l'ampiezza di classe a 0.1 e costruisci una distribuzione di frequenza con almeno 30 valori di ciascuno dei tipi indicati sotto. Incrementa l'ampiezza di classe e osserva la posizione e la dimensione della barra media/deviazione standard.

  1. Distribuzione uniforme.
  2. Distribuzione simmetrica unimodale.
  3. Distribuzione unimodale asimmetrica a destra.
  4. Distribuzione unimodale asimmetrica a sinistra.
  5. Distribuzione simmetrica bimodale.
  6. Distribuzione a forma di u.

Simulazione 25. Nell' istogramma interattivo, costruisci una distribuzione con la più alta deviazione standard possibile.

Esercizio teorico 26. Basandoti sulla risposta all'esercizio 25, definisci le distribuzioni (su un intervallo [a, b] dato) con la deviazione standard più alta possibile.