Laboratorio virtuale > Campioni casuali > 1 2 3 4 5 6 7 8 [9]

9. Covarianza e correlazione campionaria


Il modello bivariato

Introduciamo, come al solito, un esperimento casuale semplice definito su un certo spazio campionario e con una certa misura di probabilità. Supponiamo che X e Y siano variabili casuali a valori reali relative all'esperimento. Indicheremo medie, varianze, e covarianze come segue:

Ricordiamo infine che la correlazione vale pX,Y = cor(X, Y) = dX,Y / (dX dY).

Supponiamo ora di ripetere l'esperimento n volte per ottenere n vettori aleatori indipendenti, ciscuno distribuito come (X, Y). Ciò significa estrarre un campione casuale di dimensione n dalla distribuzione

(X1, Y1), (X2, Y2), ..., (Xn, Yn).

Come sopra, utilizzeremo l'indice inferiore per distinguere media campionaria e varianza campionaria delle variabili X e Y. Ovviamente queste statistiche dipendono dalla dimensione del campione n, ma per semplicità non terremo conto di questa dipendenza nella notazione.

In questo paragrafo definiremo e studieremo statistiche che costituiscono stimatori naturali della covarianza e della correlazione della distribuzione. Queste statistiche misurano la relazione lineare che intercorre tra i punti del campione nel piano. Al solito, le definizioni dipenderanno da quali parametri sono noti e quali no.

Uno stimatore della covarianza con µX e µY noti

Immaginiamo in primo luogo che le medie µX e µY siano note. Questa assunzione è di solito poco realistica, ma è un buon punto di partenza, poiché il risultato è molto semplice e utile per quanto seguirà. In questo caso, uno stimatore naturale per dX,Y è

WX,Y = (1 / n)sommatoriai = 1, ..., n (Xi - µX)(Yi - µY).

Esercizio teorico 1. Prova che WX,Y è la media campionaria di un campione di dimensione n estratto dalla distribuzione di (X - µX)(Y - µY).

Esercizio teorico 2. Usa il risultato dell'esercizio 1 per mostrare che

  1. E(WX,Y) = dX,Y.
  2. WX,Y converge a dX,Y per n converges to infinito quasi certamente.

In particolare, WX,Y è uno stimatore corretto per dX,Y.

La covarianza campionaria

Consideriamo ora il caso più realistico in cui le medie µX e µY sono ignote. In questo caso un approccio naturale è fare la media dei

(Xi - MX)(Yi - MY)

per i = 1, 2, ..., n. Piuttosto che dividere per n, però, dovremo dividere per una costante che restituisca uno stimatore corretto per dX,Y.

Esercizio teorico 3. Interpreta geometricamente il segno degli (Xi - MX)(Yi - MY), in termini della dispersione di punti e del suo centro.

Esercizio teorico 4. Dimostra che cov(MX, MY) = dX,Y / n.

Esercizio teorico 5. Prova che

sommatoriai = 1, ..., n (Xi - MX)(Yi - MY) = n [WX,Y - (MX - µX)(M2 - µY)].

Esercizio teorico 6. Usa il risultato dell'esercizio 5 e le proprietà del valore atteso per dimostrare che

E[sommatoriai = 1, ..., n (Xi - MX)(Yi - MY)] = (n - 1)dX,Y.

Pertanto, per avere uno stimatore corretto di dX,Y, dobbiamo definire la covarianza campionaria come

SX,Y = [1 / (n - 1)] sommatoriai = 1, ..., n (Xi - MX)(Yi - MY).

Analogamente a quanto avviene per la varianza campionaria, se n è grande non fa molta differenza dividere per n piuttosto che per n - 1.

Proprietà

La formula presentata nel prossimo esercizio è spesso più utile di quella generale ai fini computazionali.

Esercizio teorico 7. Prova che

SX,Y = [1 / (n - 1)] sommatoriai = 1, ..., n XiYi - [n / (n - 1)]MXMY.

Esercizio teorico 8. Usa il risultato dell'esercizio 5 e la legge forte dei grandi numeri per dimostrare che

SX,Y converge a dX,Y as n converge a infinito quasi certamente.

Le proprietà che saranno introdotte negli esercizi seguenti sono analoghe a quelle relative alla covarianza della distribuzione.

Esercizio teorico 9. Prova che SX,X = SX2.

Esercizio teorico 10. Mostra che SX,Y = SY,X.

Esercizio teorico 11. Dimostra che, se a è costante, allora SaX, Y = a SX,Y.

Esercizio teorico 12. Supponi di avere un campione casuale di dimensione n estratto dalla distribuzione di (X, Y, Z). Prova che

SX,Y + Z = SX,Y + SX,Z.

La correlazione campionaria

Analogamente alla correlazione della distribuzione, la correlazione campionaria si ottiene dividendo la covarianza campionaria per il prodotto delle deviazioni standard campionarie:

RX,Y = SX,Y / (SXSY).

Esercizio teorico 13. Usa la legge forte dei grandi numeri per dimostrare che

RX,Y converge a pX,Y as n converge a infinito quasi certamente 1.

Simulazione 14. Clicca sull'applet diseprsione interattiva per definire 20 punti e cerca di avvicinarti il più possibile alle seguenti condizioni: media campionaria 0, deviazione standard campionaria 1, correlazione campionaria: 0, 0.5, -0.5, 0.7, -0.7, 0.9, -0.9.

Simulazione 15. Clicca sull'applet dispersione interattiva per definire 20 punti e cerca di avvicinarti il più possibile alle seguenti condizioni: media campionaria di X 1, media campionaria di Y 3, deviazione standard campionaria di X 2, deviazione standard campionaria di Y 1, correlazione campionaria: 0, 0.5, -0.5, 0.7, -0.7, 0.9, -0.9.

Il miglior predittore lineare

Ricorda che nella sezione su correlazione e regressione (relative alla distribuzione), abbiamo dimostrato che il miglior predittore lineare di Y dato X, ovvero la previsione che minimizza l'errore quadratico medio è

aX + b dove a = dX,Y / dX2 e b = µY - a µX .

Inoltre, il valore (minimo) dell'errore quadratico medio, con questi valori di a e b, è

E{[Y - (aX + b)]2} = dY2 (1 - pX,Y2).

Ovviamente, all'atto pratico, è improbabile conoscere i parametri della distribuzione necessari per trovare a e b. Siamo pertanto interessati al problema della stima del miglior predittore lineare di Y dato X sulla base dei dati del campione.

(X1, Y1), (X2, Y2), ..., (Xn, Yn).

Un approccio naturale è trovare la retta

y = Ax + B

che si adatta meglio ai punti della dispersione. Questo è un problema fondamentale in molti rami della matematica e non solo in statistica. Il termine migliore sta a significare che vogliamo trovare la retta (ovvero, trovare A e B) che minimizza la media degli errori quadratici tra i valori reali e quelli previsti per y:

MSE = [1 / (n - 1)]sommatoriai = 1, ..., n[Yi - (AXi + B)]2.

Trovare A e B che minimizzano MSE è un problema comune in analisi.

Esercizio teorico 16. Prova che MSE è minimo per

  1. A = SX,Y / SX2.
  2. B = MY - AMX.

Esercizio teorico 17. Prova che il valore minimo di MSE, per A e B dati nell'esercizio 16, è

MSE = SY2[1 - RX,Y2].

Esercizio teorico 18. Usa il risultato dell'esercizio 17 per mostrare che

  1. RX,Y in [-1, 1].
  2. RX,Y = -1 se e solo se i punti della dispersione giacciono su una retta con pendenza negativa.
  3. RX,Y = 1 se e solo se i punti della dispersione giacciono su una retta con pendenza positiva.

Pertanto, la correlazione campionaria misura il grado di linearità dei punti della dispersione. I risultati dell'esercizio 18 possono essere ottenuti anche osservando che la correlazione campionaria è semplicemente la correlazione della distribuzione empirica. Ovviamente, le proprietà (a), (b) e (c) sono note per la correlazione della distribuzione.

Il fatto che i risultati degli esercizio 17 e 18 siano gli stessi di quelli ottenuti in precedenza relativamente alla distribuzione è importante e rassicurante. La retta y = Ax + B, dove A e B sono quelli indicati nell'esercizio 17, è detta retta di regressione (campionaria) per Y dato X. Nota dal 17 (b) che la retta di regressione passa per (MX , MY ), ovvero il centro della distribuzione empirica. Naturalmente, A e B possono essere interpretati come stimatori rispettivamente a e b.

Esercizio teorico 19. Usa la legge dei grandi numeri per dimostrare che A converge quasi certamente ad a e B a b per n che tende a infinito.

Esattamente come nel caso delle rette di regressione relative alla distribuzione, la selezione del predittore e delle variabili di risposta è importantissima.

Esercizio teorico 20. Dimostra che la retta di regressione del campione di Y da X e quella di X da Y non coincidono, a parte il caso in cui i punti giacciano tutti su una linea.

Ricorda che la costante B che minimizza

MSE = [1 / (n - 1)]sommatoriai = 1, ..., n (Yi - B)2.

è la media campionaria MY, e il valore minimo di MSE è la varianza campionaria SY2. Pertanto, la differenza tra questo valore dell'errore quadratico medio e quello riportato nell'esercizio 17, cioè

SY2 RX,Y2,

è la riduzione di variabilità delle Y quando il termine lineare in X viene aggiunto al predittore. La riduzione, in termini frazionari, è RX,Y2, e pertanto questa statistica è detta coefficiente di determinazione (campionario).

Simulazione

Simulazione 21. Clicca sull'applet dispersione interattiva in vari punti e osserva come la retta di regressione varia.

Simulazione 22. Clicca sull'applet dispersione interattiva e definisci 20 punti. Cerca di fare in modo che la media delle x sia 0 e la deviazione standard 1, e che la retta di regressione abbia

  1. pendenza 1, intercetta 1
  2. pendenza 3, intercetta 0
  3. pendenza -2, intercetta 1

Simulazione 23. Clicca sull'applet dispersione interattiva e definisci 20 punti con le seguenti proprietà: media delle x 1, media delle y 1, retta di regressione con pendenza 1 e intercetta 2.

Se l'esercizio 23 ti ha creato problemi, è perché le condizioni sono impossibili da soddisfare!

Simulazione 24. Esegui l'esperimento bivariato uniforme 2000 volte, aggiornando ogni 10, in ciascuno dei casi seguenti. Osserva la convergenza delle medie campionarie, delle deviazioni standard campionarie, della correlazione campionaria e della retta di regressione campionaria alle loro controparti teoriche.

  1. Distribuzione uniforme su un quadrato
  2. Distribuzione uniforme su un triangolo
  3. Distribuzione uniforme su un cerchio

Simulazione 25. Esegui l'esperimento bivariato uniforme 2000 volte, aggiornando ogni 10, in ciascuno dei casi seguenti. Osserva la convergenza delle medie campionarie, delle deviazioni standard campionarie, della correlazione campionaria e della retta di regressione campionaria alle loro controparti teoriche.

  1. sd(X) = 1, sd(Y) = 2, cor(X, Y) = 0.5
  2. sd(X) = 1.5, sd(Y) = 0.5, cor(X, Y) = -0.7

Esercizi numerici

Esercizio numerico 26. Calcola la correlazione tra lunghezza e larghezza dei petali nei seguenti casi sui dati di Fisher sugli iris. Commenta le differenze.

  1. Tutte le varietà
  2. Solo la Setosa
  3. Solo la Verginica
  4. Solo la Versicolor

Esercizio numerico 27. Calcola la correlazione tra ciascuna coppia di colori sui dati M&M.

Esercizio numerico 28. Utilizzando tutte le varietà sui dati di Fisher inerenti gli iris,

  1. Calcola la retta di regressione con la lunghezza del petalo come variabile indipendente e larghezza come variabile dipendente.
  2. Disegna la dispersione dei punti e la retta di regressione.
  3. Trova il valore previsto per la larghezza di un petalo di lunghezza 40

Esercizio numerico 29. Usando solo i dati della varietà Setosa nei dati di Fisher inerenti gli iris,

  1. Calcola la retta di regressione con la lunghezza del sepalo come variabile indipendente e larghezza come variabile dipendente.
  2. Disegna la dispersione dei punti e la retta di regressione.
  3. Trova il valore previsto per la larghezza di un sepalo di lunghezza 45