Covarianza e correlazione campionaria

9. Covarianza e correlazione campionaria

Il modello bivariato

Introduciamo, come al solito, un esperimento casuale semplice definito su un certo spazio campionario e con una certa misura di probabilità. Supponiamo che X e Y siano variabili casuali a valori reali relative all'esperimento. Indicheremo medie, varianze, e covarianze come segue:

µ_X = E(X)
µ_Y = E(Y)
d_X² = var(X)
d_Y² = var(Y)
d_X,Y = cov(X, Y).

Ricordiamo infine che la correlazione vale p_X,Y = cor(X, Y) = d_X,Y / (d_X d_Y).

Supponiamo ora di ripetere l'esperimento n volte per ottenere n vettori aleatori indipendenti, ciscuno distribuito come (X, Y). Ciò significa estrarre un campione casuale di dimensione n dalla distribuzione

(X₁, Y₁), (X₂, Y₂), ..., (X_n, Y_n).

Come sopra, utilizzeremo l'indice inferiore per distinguere media campionaria e varianza campionaria delle variabili X e Y. Ovviamente queste statistiche dipendono dalla dimensione del campione n, ma per semplicità non terremo conto di questa dipendenza nella notazione.

In questo paragrafo definiremo e studieremo statistiche che costituiscono stimatori naturali della covarianza e della correlazione della distribuzione. Queste statistiche misurano la relazione lineare che intercorre tra i punti del campione nel piano. Al solito, le definizioni dipenderanno da quali parametri sono noti e quali no.

Uno stimatore della covarianza con µ`_X` e µ`_Y` noti

Immaginiamo in primo luogo che le medie µ_X e µ_Y siano note. Questa assunzione è di solito poco realistica, ma è un buon punto di partenza, poiché il risultato è molto semplice e utile per quanto seguirà. In questo caso, uno stimatore naturale per d_X,Y è

W_X,Y = (1 / n)_{i
= 1, ..., n} (X_i - µ_X)(Y_i - µ_Y).

$Esercizio teorico$ 1. Prova che W_X,Y è la media campionaria di un campione di dimensione n estratto dalla distribuzione di (X - µ_X)(Y - µ_Y).

$Esercizio teorico$ 2. Usa il risultato dell'esercizio 1 per mostrare che

E(W_X,Y) = d_X,Y.
W_X,Y d_X,Y per n quasi certamente.

In particolare, W_X,Y è uno stimatore corretto per d_X,Y.

La covarianza campionaria

Consideriamo ora il caso più realistico in cui le medie µ_X e µ_Y sono ignote. In questo caso un approccio naturale è fare la media dei

(X_i - M_X)(Y_i - M_Y)

per i = 1, 2, ..., n. Piuttosto che dividere per n, però, dovremo dividere per una costante che restituisca uno stimatore corretto per d_X,Y.

$Esercizio teorico$ 3. Interpreta geometricamente il segno degli (X_i - M_X)(Y_i - M_Y), in termini della dispersione di punti e del suo centro.

$Esercizio teorico$ 4. Dimostra che cov(M_X, M_Y) = d_X,Y / n.

$Esercizio teorico$ 5. Prova che

_{i
= 1, ..., n} (X_i - M_X)(Y_i - M_Y) = n [W_X_,Y- (M_X - µ_X)(M₂ - µ_Y)].

$Esercizio teorico$ 6. Usa il risultato dell'esercizio 5 e le proprietà del valore atteso per dimostrare che

E[_{i
= 1, ..., n} (X_i - M_X)(Y_i - M_Y)] = (n - 1)d_X,Y.

Pertanto, per avere uno stimatore corretto di d_X,Y, dobbiamo definire la covarianza campionaria come

S_X,Y = [1 / (n - 1)] _{i
= 1, ..., n} (X_i - M_X)(Y_i - M_Y).

Analogamente a quanto avviene per la varianza campionaria, se n è grande non fa molta differenza dividere per n piuttosto che per n - 1.

Proprietà

La formula presentata nel prossimo esercizio è spesso più utile di quella generale ai fini computazionali.

$Esercizio teorico$ 7. Prova che

S_X_,Y = [1 / (n - 1)] _{i
= 1, ..., n} X_iY_i - [n / (n - 1)]M_XM_Y.

$Esercizio teorico$ 8. Usa il risultato dell'esercizio 5 e la legge forte dei grandi numeri per dimostrare che

S_X,Y d_X,Y as n quasi certamente.

Le proprietà che saranno introdotte negli esercizi seguenti sono analoghe a quelle relative alla covarianza della distribuzione.

$Esercizio teorico$ 9. Prova che S_X,X = S_X².

$Esercizio teorico$ 10. Mostra che S_X,Y = S_Y,X.

$Esercizio teorico$ 11. Dimostra che, se a è costante, allora S_aX_,_Y = a S_X_,Y.

$Esercizio teorico$ 12. Supponi di avere un campione casuale di dimensione n estratto dalla distribuzione di (X, Y, Z). Prova che

S_X,Y + Z = S_X,Y + S_X,Z.

La correlazione campionaria

Analogamente alla correlazione della distribuzione, la correlazione campionaria si ottiene dividendo la covarianza campionaria per il prodotto delle deviazioni standard campionarie:

R_X,Y = S_X,Y / (S_XS_Y).

$Esercizio teorico$ 13. Usa la legge forte dei grandi numeri per dimostrare che

R_X,Y p_X,Y as n quasi certamente 1.

14. Clicca sull'applet diseprsione interattiva per definire 20 punti e cerca di avvicinarti il più possibile alle seguenti condizioni: media campionaria 0, deviazione standard campionaria 1, correlazione campionaria: 0, 0.5, -0.5, 0.7, -0.7, 0.9, -0.9.

15. Clicca sull'applet dispersione interattiva per definire 20 punti e cerca di avvicinarti il più possibile alle seguenti condizioni: media campionaria di X 1, media campionaria di Y 3, deviazione standard campionaria di X 2, deviazione standard campionaria di Y 1, correlazione campionaria: 0, 0.5, -0.5, 0.7, -0.7, 0.9, -0.9.

Il miglior predittore lineare

Ricorda che nella sezione su correlazione e regressione (relative alla distribuzione), abbiamo dimostrato che il miglior predittore lineare di Y dato X, ovvero la previsione che minimizza l'errore quadratico medio è

aX + b dove a = d_X_,Y / d_X² e b = µ_Y - a µ_X .

Inoltre, il valore (minimo) dell'errore quadratico medio, con questi valori di a e b, è

E{[Y - (aX + b)]²} = d_Y² (1 - p_X_,Y²).

Ovviamente, all'atto pratico, è improbabile conoscere i parametri della distribuzione necessari per trovare a e b. Siamo pertanto interessati al problema della stima del miglior predittore lineare di Y dato X sulla base dei dati del campione.

(X₁, Y₁), (X₂, Y₂), ..., (X_n, Y_n).

Un approccio naturale è trovare la retta

y = Ax + B

che si adatta meglio ai punti della dispersione. Questo è un problema fondamentale in molti rami della matematica e non solo in statistica. Il termine migliore sta a significare che vogliamo trovare la retta (ovvero, trovare A e B) che minimizza la media degli errori quadratici tra i valori reali e quelli previsti per y:

MSE = [1 / (n - 1)]_{i
= 1, ..., n}[Y_i - (AX_i + B)]².

Trovare A e B che minimizzano MSE è un problema comune in analisi.

$Esercizio teorico$ 16. Prova che MSE è minimo per

A = S_X,Y / S_X².
B = M_Y - AM_X.

$Esercizio teorico$ 17. Prova che il valore minimo di MSE, per A e B dati nell'esercizio 16, è

MSE = S_Y²[1 - R_X_,Y²].

$Esercizio teorico$ 18. Usa il risultato dell'esercizio 17 per mostrare che

R_X_,Y [-1, 1].
R_X_,Y = -1 se e solo se i punti della dispersione giacciono su una retta con pendenza negativa.
R_X_,Y = 1 se e solo se i punti della dispersione giacciono su una retta con pendenza positiva.

Pertanto, la correlazione campionaria misura il grado di linearità dei punti della dispersione. I risultati dell'esercizio 18 possono essere ottenuti anche osservando che la correlazione campionaria è semplicemente la correlazione della distribuzione empirica. Ovviamente, le proprietà (a), (b) e (c) sono note per la correlazione della distribuzione.

Il fatto che i risultati degli esercizio 17 e 18 siano gli stessi di quelli ottenuti in precedenza relativamente alla distribuzione è importante e rassicurante. La retta y = Ax + B, dove A e B sono quelli indicati nell'esercizio 17, è detta retta di regressione (campionaria) per Y dato X. Nota dal 17 (b) che la retta di regressione passa per (M_X , M_Y ), ovvero il centro della distribuzione empirica. Naturalmente, A e B possono essere interpretati come stimatori rispettivamente a e b.

$Esercizio teorico$ 19. Usa la legge dei grandi numeri per dimostrare che A converge quasi certamente ad a e B a b per n che tende a infinito.

Esattamente come nel caso delle rette di regressione relative alla distribuzione, la selezione del predittore e delle variabili di risposta è importantissima.

$Esercizio teorico$ 20. Dimostra che la retta di regressione del campione di Y da X e quella di X da Y non coincidono, a parte il caso in cui i punti giacciano tutti su una linea.

Ricorda che la costante B che minimizza

MSE = [1 / (n - 1)]_{i
= 1, ..., n} (Y_i - B)².

è la media campionaria M_Y, e il valore minimo di MSE è la varianza campionaria S_Y². Pertanto, la differenza tra questo valore dell'errore quadratico medio e quello riportato nell'esercizio 17, cioè

S_Y²R_X_,Y²,

è la riduzione di variabilità delle Y quando il termine lineare in X viene aggiunto al predittore. La riduzione, in termini frazionari, è R_X_,Y², e pertanto questa statistica è detta coefficiente di determinazione (campionario).

Simulazione

21. Clicca sull'applet dispersione interattiva in vari punti e osserva come la retta di regressione varia.

22. Clicca sull'applet dispersione interattiva e definisci 20 punti. Cerca di fare in modo che la media delle x sia 0 e la deviazione standard 1, e che la retta di regressione abbia

pendenza 1, intercetta 1
pendenza 3, intercetta 0
pendenza -2, intercetta 1

23. Clicca sull'applet dispersione interattiva e definisci 20 punti con le seguenti proprietà: media delle x 1, media delle y 1, retta di regressione con pendenza 1 e intercetta 2.

Se l'esercizio 23 ti ha creato problemi, è perché le condizioni sono impossibili da soddisfare!

24. Esegui l'esperimento bivariato uniforme 2000 volte, aggiornando ogni 10, in ciascuno dei casi seguenti. Osserva la convergenza delle medie campionarie, delle deviazioni standard campionarie, della correlazione campionaria e della retta di regressione campionaria alle loro controparti teoriche.

Distribuzione uniforme su un quadrato
Distribuzione uniforme su un triangolo
Distribuzione uniforme su un cerchio

25. Esegui l'esperimento bivariato uniforme 2000 volte, aggiornando ogni 10, in ciascuno dei casi seguenti. Osserva la convergenza delle medie campionarie, delle deviazioni standard campionarie, della correlazione campionaria e della retta di regressione campionaria alle loro controparti teoriche.

sd(X) = 1, sd(Y) = 2, cor(X, Y) = 0.5
sd(X) = 1.5, sd(Y) = 0.5, cor(X, Y) = -0.7

Esercizi numerici

26. Calcola la correlazione tra lunghezza e larghezza dei petali nei seguenti casi sui dati di Fisher sugli iris. Commenta le differenze.

Tutte le varietà
Solo la Setosa
Solo la Verginica
Solo la Versicolor

27. Calcola la correlazione tra ciascuna coppia di colori sui dati M&M.

28. Utilizzando tutte le varietà sui dati di Fisher inerenti gli iris,

Calcola la retta di regressione con la lunghezza del petalo come variabile indipendente e larghezza come variabile dipendente.
Disegna la dispersione dei punti e la retta di regressione.
Trova il valore previsto per la larghezza di un petalo di lunghezza 40

29. Usando solo i dati della varietà Setosa nei dati di Fisher inerenti gli iris,

Calcola la retta di regressione con la lunghezza del sepalo come variabile indipendente e larghezza come variabile dipendente.
Disegna la dispersione dei punti e la retta di regressione.
Trova il valore previsto per la larghezza di un sepalo di lunghezza 45