Laboratorio virtuale > Campioni casuali > 1 2 3 4 5 6 7 8 [9]
Introduciamo, come al solito, un esperimento casuale semplice definito su un certo spazio campionario e con una certa misura di probabilità. Supponiamo che X e Y siano variabili casuali a valori reali relative all'esperimento. Indicheremo medie, varianze, e covarianze come segue:
Ricordiamo infine che la correlazione vale pX,Y = cor(X, Y) = dX,Y / (dX dY).
Supponiamo ora di ripetere l'esperimento n volte per ottenere n vettori aleatori indipendenti, ciscuno distribuito come (X, Y). Ciò significa estrarre un campione casuale di dimensione n dalla distribuzione
(X1, Y1), (X2, Y2), ..., (Xn, Yn).
Come sopra, utilizzeremo l'indice inferiore per distinguere media campionaria e varianza campionaria delle variabili X e Y. Ovviamente queste statistiche dipendono dalla dimensione del campione n, ma per semplicità non terremo conto di questa dipendenza nella notazione.
In questo paragrafo definiremo e studieremo statistiche che costituiscono stimatori naturali della covarianza e della correlazione della distribuzione. Queste statistiche misurano la relazione lineare che intercorre tra i punti del campione nel piano. Al solito, le definizioni dipenderanno da quali parametri sono noti e quali no.
Immaginiamo in primo luogo che le medie µX e µY siano note. Questa assunzione è di solito poco realistica, ma è un buon punto di partenza, poiché il risultato è molto semplice e utile per quanto seguirà. In questo caso, uno stimatore naturale per dX,Y è
WX,Y = (1 / n)
i
= 1, ..., n (Xi - µX)(Yi
- µY).
1. Prova che WX,Y
è la media campionaria di un campione di dimensione n estratto dalla distribuzione di
![]()
Consideriamo ora il caso più realistico in cui le medie µX e µY sono ignote. In questo caso un approccio naturale è fare la media dei
(Xi - MX)(Yi - MY)
per i = 1, 2, ..., n. Piuttosto che dividere per n, però, dovremo dividere per una costante che restituisca uno stimatore corretto per dX,Y.
3. Interpreta geometricamente il segno degli (Xi - MX)(Yi - MY), in termini della dispersione di punti e del suo centro.
4. Dimostra che cov(MX, MY) = dX,Y
/ n.
5. Prova che
i
= 1, ..., n (Xi - MX)(Yi
- MY) = n [WX,Y -
(MX - µX)(M2 - µY)].
6. Usa il risultato dell'esercizio 5 e le proprietà del valore atteso per dimostrare che
E[
i
= 1, ..., n (Xi - MX)(Yi
- MY)]
= (n - 1)dX,Y.
Pertanto, per avere uno stimatore corretto di dX,Y, dobbiamo definire la covarianza campionaria come
SX,Y = [1 / (n - 1)]
i
= 1, ..., n (Xi - MX)(Yi
- MY).
Analogamente a quanto avviene per la varianza campionaria, se n è grande non fa molta differenza dividere per n piuttosto che per n - 1.
La formula presentata nel prossimo esercizio è spesso più utile di quella generale ai fini computazionali.
7.
Prova che
SX,Y = [1 / (n - 1)]
i
= 1, ..., n XiYi - [n / (n
- 1)]MXMY.
8. Usa il risultato dell'esercizio 5 e la legge forte dei grandi numeri per dimostrare che
SX,Y
quasi certamente.
Le proprietà che saranno introdotte negli esercizi seguenti sono analoghe a quelle relative alla covarianza della distribuzione.
9. Prova che SX,X
= SX2.
10. Mostra che SX,Y
= SY,X.
11.
Dimostra che, se a è costante, allora SaX, Y
= a SX,Y.
12. Supponi di avere un campione casuale di dimensione n estratto dalla distribuzione di (X, Y,
Z). Prova che
SX,Y + Z = SX,Y + SX,Z.
Analogamente alla correlazione della distribuzione, la correlazione campionaria si ottiene dividendo la covarianza campionaria per il prodotto delle deviazioni standard campionarie:
RX,Y = SX,Y / (SXSY).
13. Usa la legge forte dei grandi numeri per dimostrare che
RX,Y
quasi certamente 1.
14. Clicca sull'applet
diseprsione interattiva per definire 20 punti e cerca di avvicinarti il più possibile alle seguenti condizioni: media campionaria 0, deviazione standard campionaria 1, correlazione campionaria: 0, 0.5, -0.5, 0.7, -0.7, 0.9, -0.9.
15. Clicca sull'applet
dispersione interattiva per definire 20 punti e cerca di avvicinarti il più possibile alle seguenti condizioni: media campionaria di X 1, media campionaria di Y 3, deviazione standard campionaria di X 2, deviazione standard campionaria di Y 1, correlazione campionaria:
0, 0.5, -0.5, 0.7, -0.7, 0.9, -0.9.
Ricorda che nella sezione su correlazione e regressione (relative alla distribuzione), abbiamo dimostrato che il miglior predittore lineare di Y dato X, ovvero la previsione che minimizza l'errore quadratico medio è
aX + b dove a = dX,Y / dX2 e b = µY - a µX .
Inoltre, il valore (minimo) dell'errore quadratico medio, con questi valori di a e b, è
E{[Y - (aX + b)]2} = dY2 (1 - pX,Y2).
Ovviamente, all'atto pratico, è improbabile conoscere i parametri della distribuzione necessari per trovare a e b. Siamo pertanto interessati al problema della stima del miglior predittore lineare di Y dato X sulla base dei dati del campione.
(X1, Y1), (X2, Y2), ..., (Xn, Yn).
Un approccio naturale è trovare la retta
y = Ax + B
che si adatta meglio ai punti della dispersione. Questo è un problema fondamentale in molti rami della matematica e non solo in statistica. Il termine migliore sta a significare che vogliamo trovare la retta (ovvero, trovare A e B) che minimizza la media degli errori quadratici tra i valori reali e quelli previsti per y:
MSE = [1 / (n - 1)]
i
= 1, ..., n[Yi - (AXi
+ B)]2.
Trovare A e B che minimizzano MSE è un problema comune in analisi.
16. Prova che MSE è minimo per
17.
Prova che il valore minimo di MSE, per A e B dati nell'esercizio 16, è
MSE = SY2[1 - RX,Y2].
18.
Usa il risultato dell'esercizio 17 per mostrare che
Il fatto che i risultati degli esercizio 17 e 18 siano gli stessi di quelli ottenuti in precedenza relativamente alla distribuzione è importante e rassicurante. La retta y = Ax + B, dove A e B sono quelli indicati nell'esercizio 17, è detta retta di regressione (campionaria) per Y dato X. Nota dal 17 (b) che la retta di regressione passa per (MX , MY ), ovvero il centro della distribuzione empirica. Naturalmente, A e B possono essere interpretati come stimatori rispettivamente a e b.
19. Usa la legge dei grandi numeri per dimostrare che A converge quasi certamente ad a e B a b per n che tende a infinito.
Esattamente come nel caso delle rette di regressione relative alla distribuzione, la selezione del predittore e delle variabili di risposta è importantissima.
20.
Dimostra che la retta di regressione del campione di Y da X e quella di X da Y non coincidono, a parte il caso in cui i punti giacciano tutti su una linea.
Ricorda che la costante B che minimizza
MSE = [1 / (n - 1)]
i
= 1, ..., n (Yi - B)2.
è la media campionaria MY, e il valore minimo di MSE è la varianza campionaria SY2. Pertanto, la differenza tra questo valore dell'errore quadratico medio e quello riportato nell'esercizio 17, cioè
SY2 RX,Y2,
è la riduzione di variabilità delle Y quando il termine lineare in X viene aggiunto al predittore. La riduzione, in termini frazionari, è RX,Y2, e pertanto questa statistica è detta coefficiente di determinazione (campionario).
21. Clicca sull'applet dispersione interattiva in vari punti e osserva come la retta di regressione varia.
22. Clicca sull'applet dispersione interattiva e definisci 20 punti. Cerca di fare in modo che la media delle x sia 0 e la deviazione standard 1, e che la retta di regressione abbia
23. Clicca sull'applet dispersione interattiva e definisci 20 punti con le seguenti proprietà: media delle x 1, media delle y 1, retta di regressione con pendenza 1 e intercetta 2.
Se l'esercizio 23 ti ha creato problemi, è perché le condizioni sono impossibili da soddisfare!
24. Esegui l'esperimento bivariato uniforme 2000 volte, aggiornando ogni 10, in ciascuno dei casi seguenti. Osserva la convergenza delle medie campionarie, delle deviazioni standard campionarie, della correlazione campionaria e della retta di regressione campionaria alle loro controparti teoriche.
25. Esegui l'esperimento bivariato uniforme 2000 volte, aggiornando ogni 10, in ciascuno dei casi seguenti. Osserva la convergenza delle medie campionarie, delle deviazioni standard campionarie, della correlazione campionaria e della retta di regressione campionaria alle loro controparti teoriche.
26. Calcola la correlazione tra lunghezza e larghezza dei petali nei seguenti casi sui dati di Fisher sugli iris. Commenta le differenze.
27. Calcola la correlazione tra ciascuna coppia di colori sui dati M&M.
28. Utilizzando tutte le varietà sui dati di Fisher inerenti gli iris,
29. Usando solo i dati della varietà Setosa nei dati di Fisher inerenti gli iris,