Laboratorio virtuale > Campioni casuali > 1 2 3 [4] 5 6 7 8 9
Per iniziare, introduciamo un esperimento aleatorio semplice, definito su un certo spazio campionario e con misura di probabilità P. Supponiamo che X sia una variabile casuale a valori reali, relativa all'esperimento, con valore atteso µ e deviazione standard d. Inoltre, sia
dk = E[(X - µ)k]
il momento k-esimo intorno alla media. Osserva in particolare che d0 = 1, d1 = 0, d2 = d2.
Ripetiamo indefinitamente l'esperimento semplice per avere un nuovo esperimento composito costituito da una sequenza di variabili casuali indipendenti, ciascuna distribuita come X:
X1, X2, ...
Per ogni n, (X1, X2, ..., Xn) è un campione casuale di dimensione n estratto dalla dsitribuzione di X. Ricorda che la media campionaria
Mn
= (1 / n)i = 1, ..., n Xiè una misura naturale del "centro" dei dati, nonché uno stimatore naturale per µ. In questo paragrafo introdurremo statistiche che costituiscono misure naturali della dispersione dei dati e stimatore per la varianza d2. Le statistiche di cui parleremo sono differenti a seconda del fatto che µ sia noto oppure no; per questa ragione µ è detto parametro di disturbo relativamente al problema della stima di d2.
Per iniziare, ci occuperemo del caso in cui µ è noto, anche se questa assunzione è solitamente irrealistica all'atto pratico. In questo caso, la stima è semplice. Sia
Wn2 = (1 / n)i = 1, ..., n (Xi - µ)2.
1. Prova che Wn2 è la media campionaria di un campione di dimensione n estratto dalla distribuzione di (X - µ)2.
2. Usa il risultato dell'esercizio 1 per dimostrare che
In particolare, 2(a) significa che Wn2 è uno stimatore corretto per d2.
3. Usa le proprietà della covarianza per provare che
cov(Mn, Wn2) = d3 / n.
Ne segue che la media campionaria e la varianza campionaria sono incorrelate se d3 = 0, e in ogni caso asintoticamente incorrelate.
4. Usa la disuguaglianza di Jensen per mostrare che E(Wn) d.
Pertanto, Wn è uno stimatore distorto che tende a sottostimare d.
Consideriamo ora il caso, più realistico, in cui µ è ignoto. In questo caso un'idea naturale potrebbe essere quella di utilizzare una qualche media dei (Xi - Mn)2 per i = 1, 2, ..., n. Si potrebbe pensare di dividere per n; tuttavia un'altra possibilità è di dividere per una costante che ci dia uno stimatore corretto per d2.
5. Usa tecniche algebriche di base per dimostrare che
i = 1, ..., n (Xi - Mn)2 = i = 1, ..., n (Xi - µ)2 - n(Mn - µ)2.
6. Usa i risultati dell'esercizio 5 e le proprietà del valore atteso per dimostrare che
E[i = 1, ..., n (Xi - Mn)2] = (n - 1)d2.
Segue pertanto dall'esercizio 6 che la variabile casuale
Sn2 = [1 / (n - 1)]i = 1, ..., n (Xi - Mn)2
è uno stimatore corretto per d2; tale statistica è detta varianza campionaria. All'atto pratico, se n è abbastanza grande, fa poca differenza dividere per n piuttosto che per n - 1. Ritornando all'esercizio 5, osserva che
Sn2 = [n / (n - 1)] Wn2 + [n / (n - 1)](Mn - µ)2 .
7. Usa la legge forte dei grandi numeri per dimostrare che
Sn2 d2 as n
quasi certamente.
Ora dimostreremo che Sn2 è un multiplo della somma di tutte le differenze al quadrato. Ciò ci permette di identificare formule per la varianza di Sn2 e per la covarianza tra Mn e Sn2.
La formula presentata nell'esercizio seguente è spesso più utile, a fini computazionali, della definizione.
8. Mostra che
Sn2 = [1 / (n - 1)]i = 1, ..., n Xi2 - [n / (n - 1)] Mn2.
La serie di esercizi che seguono ci permetteranno di calcolare la varianza di Sn2 .
9. Dimostra che
Sn2 = {1 / [2n(n -1)]} (i, j) (Xi - Xj)2.
Suggerimento: Parti dal membro di destra, aggiungi e sottrai Mn nel termine (Xi - Xj)2, espandi e somma termine a termine.
10. Mostra che, per i e j distinti
E[(Xi - Xj)m] = k = 0, ..., m C(m, k) dk dm - k.
Suggerimento: Aggiungi e sottrai µ al termine E[(Xi - Xj)m], e usa il teorema binomiale e l'indipendenza.
11. Mostra che var(Sn2) = (1 / n)[d4 - (n - 3)d4 / (n - 1)] utilizzando i seguenti passi:
12. Prova che var(Sn2) > var(Wn2). Ti sembra intuitivo?
13. Dimostra che var(Sn2) tende a 0 per n che tende a infinito.
14. Usa una tecnica simile a quella proposta nell'esercizio 11 per dimostrare che
cov(Mn, Sn2) = d3 / n.
Nota in particolare che cov(Mn, Sn2) = cov(Mn, Wn2). Di nuovo, media e varianza campionaria sono incorrelate se µ3 = 0, e asintoticamente incorrelate altrimenti.
La radice quadrata della varianza campionaria è la deviazione standard campionaria, indicata con Sn.
15. Usa la disuguaglianza di Jensen per dimostare che E(Sn) d.
Quindi Sn è uno stimatore distorto che tende a sottostimare d.
Molte delle applets contenute in questo progetto sono simulazioni di esperimenti con una variabile casuale semplice. Quando lanci una simulazione, generi delle replicazioni indipendenti dell'esperimento. Nella maggior parte dei casi, l'applet mostra la deviazione standard d della distribuzione sia numericamente in una tabella che graficamente, come lunghezza della barra orizzontale blu sotto il grafico. Quando fai una simulazione, la deviazione standard campionaria Sn è visualizzata numericamente nella tabella e graficamente come lunghezza della barra orizzontale rossa sotto il grafico.
16. Nell'esperimento binomiale della moneta, la variabile casuale è il numero di teste. Simula 1000 replicazioni aggiornando ogni 10 e osserva la convergenza della deviazione standard campionaria a quella della distribuzione.
17. Nel matching experiment, la varibile casuale è il numero di successi. Simula 1000 replicazioni aggiornando ogni 10 e osserva la convergenza della deviazione standard campionaria a quella della distribuzione.
18. Simula 1000 replicazioni dell'esperimento esponenziale aggiornando ogni 10. Osserva la convergenza della deviazione standard campionaria a quella della distribuzione.
La media e la deviazione standard campionaria si usano spesso nell'analisi esplorativa dei dati come misure rispettivamente del centro e della dispersione dei dati.
19. Calcola media e deviazione standard sui dati di Michelson relativi alla velocità della luce.
20. Calcola media e deviazione standard sui dati di Cavendish relativi alla densità della terra.
21. Calcola media e deviazione standard del peso sui dati M&M.
22. Calcola media e deviazione standard della lunghezza dei petali sui dati di Fisher relativi agli iris nei casi seguenti e confronta i risultati.
Supponiamo di avere, invece dei dati originari, una distribuzione di frequenza di classi A1, A2, ..., Ak, con valori centrali di classe x1, x2, ..., xk, e frequenze n1, n2, ..., nk. Allora
nj = #{i {1, 2, ..., n}: Xi Aj}.
In questo caso i valori approssimati di media e varianza sono
Queste approssimazioni sono basate sull'ipotesi che i valori centrali di classe rappresentino fedelmente i dati presenti in ogni classe.
23. Nell' istogramma interattivo, seleziona media e deviazione standard. Poni l'ampiezza di classe a 0.1 e costruisci una distribuzione di frequenza con almeno 6 classi non vuote e almeno 10 valori. Calcola manualmente media, varianza e deviazione standarde verifica i risultati con quelli riportati dall'applet.
24. Nell' istogramma interattivo, seleziona media e deviazione standard. Poni l'ampiezza di classe a 0.1 e costruisci una distribuzione di frequenza con almeno 30 valori di ciascuno dei tipi indicati sotto. Incrementa l'ampiezza di classe e osserva la posizione e la dimensione della barra media/deviazione standard.
25. Nell' istogramma interattivo, costruisci una distribuzione con la più alta deviazione standard possibile.
26. Basandoti sulla risposta all'esercizio 25, definisci le distribuzioni (su un intervallo [a, b] dato) con la deviazione standard più alta possibile.