Covarianza e correlazione

3. Covarianza e correlazione

Ricordiamo che, calcolando il valore atteso di diverse trasformazioni di una variabile casuale, possiamo misurare molte interessanti caratteristiche della distribuzione della variabile. In questo paragrafo studieremo un valore atteso che misura una particolare relazione tra due variabili a valori reali. Tale relazione è estremamente importante sia in probabilità che in statistica.

Definizione

Al solito, iniziamo con l'introdurre un esperimento casuale definito su un certo sapazio campionario e con misura di probabilità P. Supponiamo che X e Y siano variabili casuali a valori reali, relative all'esperimento, con medie E(X), E(Y) e varianze var(X), var(Y) (ipotizzate finite). La covarianza di X e Y è definita come

cov(X, Y) = E{[X - E(X)][Y - E(Y)]}

e (assumendo che le varianze siano positive) la correlazione di X e Y è

cor(X, Y) = cov(X, Y) / [sd(X) sd(Y)].

La correlazione è quindi una versione modificata della covarianza; osserva che i due parametri hanno sempre lo stesso segno (positivo, negativo o 0). Quando il segno è positivo, le variabili si dicono positivamente correlate; quando il segno è negativo negativamente correlate; e quando è 0, le variabili si dicono incorrelate. Come il termine stesso suggerisce, la covarianza e la correlazione misurano un certo tipo di dipendenza tra le due variabili.

Proprietà

Gli esercizi seguenti individuano alcune proprietà fondamentali della covarianza. Ai fini delle dimostrazioni, il risultato da utilizzare è la linearità dell'operatore valore atteso.

$Esercizio teorico$ 1. Prova che cov(X, Y) = E(XY) - E(X)E(Y)

$Esercizio teorico$ 2. Prova che cov(X, Y) = cov(Y, X).

$Esercizio teorico$ 3. Prova che cov(X, X) = var(X).

$Esercizio teorico$ 4. Prova che cov(aX + bY, Z) = a cov(X, Z) + b cov(Y, Z).

Dall'esercizio 1 si osserva che X e Y sono incorrelati se e solo se

E(XY) = E(X)E(Y).

In particolare, se X e Y sono indipendenti, allora sono incorrelati. Il contrario però non è vero, come mostrato nell'esercizio 11.

$Esercizio teorico$ 5. Supponi che X_j, j in J e Y_k, k in K siano variabili casuali a valori reali relative a un esperimento e che a_j, j in J e b_k, k in K siano costanti (J e K sono insiemi finiti di indici). Prova la seguente proprietà (nota come bi-linearità).

cov(_{j
in J} a_j X_j, _{k
in K} b_k Y_k) = _{j
in J} _{k
in K} a_j b_k cov(X_j, X_k).

$Esercizio teorico$ 6. Dimostra che la correlazione tra X e Y è data dalla covarianza dei corrispondenti standard score:

cor(X, Y) = cov{[X - E(X)] / sd(X), [Y - E(Y)] / sd(Y)].

Esercizi numerici

$Esercizio teorico$ 7. Supponi che (X, Y) sia distribuito uniformemente sul quadrato R = {(x, y): -6 < x < 6, -6 < y < 6}. Mostra che X e Y sono indipendenti e quindi incorrelati.

8. Nell'esperimento uniforme bivariato, seleziona quadrato dal menu a tendina. Simula 1000 replicazioni, aggiornando ogni 10. Nota il valore della correlazione e la forma della nube di punti della dispersione.

$Esercizio teorico$ 9. Supponi che (X, Y) sia distribuito uniformemente sulla regione triangolare R = {(x, y): -6 < y < x < 6}. Prova che

cor(X, Y) = 1/2.

10. Nell'esperimento uniforme bivariato, seleziona triangolo dal menu a tendina. Simula 1000 replicazioni, aggiornando ogni 10. Nota il valore della correlazione e la forma della nube di punti della dispersione.

$Esercizio teorico$ 11. Supponi che (X, Y) sia distribuito uniformemente sulla regione circolare R = {(x, y): x² + y² < 36}. Mostra che X e Y sono dipendenti ma incorrelati.

12. Nell'esperimento uniforme bivariato, seleziona cerchio dal menu a tendina. Simula 1000 replicazioni, aggiornando ogni 10. Nota il valore della correlazione e la forma della nube di punti della dispersione.

$Esercizio teorico$ 13. Supponi che X sia distribuito uniformemente sull'intervallo (-1, 1) e Y = X². Prova che X e Y sono incorrelati anche se Y dipende funzionalmente da X (la forma più forte di dipendenza).

$Esercizio teorico$ 14. Si lanciano due dadi equilibrati e si registrano i punteggi (X₁, X₂). Sia Y = X₁+ X₂ la somma dei punteggi, U = min{X₁, X₂} il punteggio minimo e V = max{X₁, X₂} il punteggio massimo. Trova covarianza e correlazione delle seguenti coppie di variabili:

X₁, X₂.
X₁, Y.
X₁, U.
U, V
U, Y

$Esercizio teorico$ 15. Supponi che X e Y siano variabili casuali con cov(X, Y) = 3. Trova

cov(2X - 5, 4Y + 2).

$Esercizio teorico$ 16. Supponi che (X, Y) abbia funzione di densità di probabilità f(x, y) = x + y per 0 < x < 1, 0 < y < 1. Trova

cov(X, Y)
cor(X, Y).

$Esercizio teorico$ 17. Supponi che (X, Y) abbia funzione di densità di probabilità f(x, y) = 2(x + y) per 0 < x < y < 1. Trova

cov(X, Y)
cor(X, Y).

$Esercizio teorico$ 18. Supponi che (X, Y) abbia funzione di densità di probabilità f(x, y) = 6x²y per 0 < x < 1, 0 < y < 1. Trova

cov(X, Y)
cor(X, Y).

$Esercizio teorico$ 19. Supponi che (X, Y) abbia funzione di densità di probabilità f(x, y) = 15x²y per 0 < x < y < 1. Trova

cov(X, Y)
cor(X, Y).

Varianza della somma

Mostreremo ora che la varianza di una somma di variabili è la somma delle mutue covarianze. Supponiamo che X_j, j in J sia una collezione di variabili casuali a valori reali relative all'esperimento, dove J è un insieme finito di indici

$Esercizio teorico$ 20. Usa i risultati degli esercizi 3 e 5 per mostrare che

var[_{j
in J} X_i] = _{j
in J}_{k
in K} cov(X_j, X_k).

Il risultato dell'esercizio precedente può risultare molto utile; può essere utilizzato per esempio per calcolare la varianza della distribuzione ipergeometrica e la distribuzione delle concordanze.

$Esercizio teorico$ 21. Supponic che X₁, X₂, ..., X_n siano a due a due incorrelati (ciò vale in particolare se sono mutualmente indipendenti). Prova che

var(X₁ + X₂ + ··· + X_n ) = var(X₁) + var(X₂) + ··· + var(X_n).

$Esercizio teorico$ 22. Prova che var(X + Y) + var(X - Y) = 2 var(X) + 2 var(Y).

$Esercizio teorico$ 23. Supponi che var(X) = var(Y). Prova che X + Y e X - Y sono incorrelati.

$Esercizio teorico$ 24. Supponi che X e Y siano variabili casuali con var(X) = 5, var(Y) = 9, cov(X, Y) = -3. Trova var(2X + 3Y - 7).

$Esercizio teorico$ 25. Supponi che X e Y siano variabili indipendenti con var(X) = 6, var(Y) = 8. Trova var(3X - 4Y + 5).

$Esercizio teorico$ 26. Supponi che X₁, X₂, ..., X_n siano indipendenti e abbiano distribuzione identica con media µ e varianza d². (Le variabili formano quindi un campione casuale dalla distribuzione comune). Sia Y_n = X₁ + X₂ + ··· + X_n. Prova che

E(Y_n) = nµ.
var(Y_n) = n d².
sd(Y_n) = n^1/2 d.

$Esercizio teorico$ 27. Nel contesto dell'esercizio precedente, sia M_n = Y_n / n. M_n è quindi la media campionaria. Mostra che

E(M_n) = µ.
var(M_n) = d² / n.
sd(M_n) = d / n^1/2.
var(M_n) 0 per n .
P(|M_n- µ| > r) 0 per n per ogni r > 0 (Suggerimento: Usa la disuguaglianza di Chebyshev).

La parte (e) dell'ultimo esercizio significa che M_n µ per n in probabilità. Si tratta della legge debole dei grandi numeri, uno dei teoremi fondamentali della probabilità.

$Esercizio teorico$ 28. Supponi di lanciare n dadi equilibrati.

Trova media e deviazione standard della somma dei punteggi
Trova media e deviazione standard della media dei punteggi

29. Nell'applet dadi, seleziona le variabili casuali seguenti. In ciascun caso, aumenta il numero di dadi e osserva dimensione e posizione della funzione di densità e della barra media-deviazione standard. Con n = 20 dadi, simula 1000 replicazioni, aggiornando ogni 10, e osserva la convergenza dei momenti empirici ai momenti teorici della distribuzione.

Somma dei punteggi
Media dei punteggi

$Esercizio teorico$ 30. Supponi che I₁, I₂, ..., I_n siano variabili indicatore indipendenti con P(I_j = 1) = p per ogni j. La distribuzione di X = I₁ + I₂ + ··· + I_n è binomiale con parametri n e p. Prova che

E(X) = np
var(X) = np(1 - p).

Eventi

Supponi che A e B siano eventi di un esperimento casuale. La covarianza e la correlazione di A e B sono definire come covarianza e correlazione delle loro rispettive variabili casuali indicatore I_A e I_B.

$Esercizio teorico$ 31. Prova che

cov(A, B) = P(A B) - P(A)P(B)
cor(A, B) = [P(A B) - P(A)P(B)] / [P(A)P(B)P(A^c)P(B^c)]^1/2.

Nota in particolare che A e B sono rispettivamente positivamente correlate, negativamente correlate o indipendenti (come definito nel paragrafo sulla probabilità condizionata) se e solo se le variabili indicatore di A e B sono positivamente correlate, negativamente correlate o indipendenti, come definito in questo paragrafo.

$Esercizio teorico$ 32. Prova che

cov(A, B^c) = -cov(A, B)
cov(A^c, B^c) = cov(A, B)

$Esercizio teorico$ 33. Supponi che A B. Prova che

cov(A, B) = P(A)P(B^c)
cor(A, B) = [P(A)P(B^c) / P(B)P(A^c)]^1/2.

$Esercizio teorico$ 34. Supponi che A e B siano eventi di un esperimento con P(A) = 1/2, P(B) = 1/3, P(A B) = 1/8. Trova covarianza e correlazione tra A e B.

Il miglior predittore lineare

Quale funzione lineare di X è più vicina a Y nel senso che minimizza l'errore quadratico medio? La questione riveste importanza fondamentale nel caso in cui la variabile casuale X (la variabile predittore) è osservabile mentre Y (la variabile risposta) non lo è. La funzione lineare può essere utilizzate per stimare Y a partire dai valori osservati di X. La soluzione mostrerà inoltre che covarianza e correlazione misurano la relazione lineare tra X e Y. Per evitare i casi triviali, assumiamo che var(X) > 0 e var(Y) > 0.

$Esercizio teorico$ 35. Prova che

E{[Y - (aX + b)]²} = var(Y) + [E(Y)]² + a² {var(X) + [E(X)]²} +
b² -2a[cov(X, Y) + E(X)E(Y)] + 2ab E(X) - 2b E(Y)

$Esercizio teorico$ 36. Usa le tecniche di analisi per mostrare che E{[Y - (aX + b)]²} è minimo quando

a = cov(X, Y) / var(X)
b = E(Y) - a E(X)

Il miglior predittore lineare di Y da X è quindi

Y* = E(Y) + [cov(X, Y) / var(X)][X - E(X)].

$Esercizio teorico$ 37. Prova che l'errore quadratico medio minimo, tra tutte le funzione lineari di X, è

E[(Y - Y*)²] = var(Y)[1 - cor²(X, Y)].

$Esercizio teorico$ 38. Sulla base dell'ultimo esercizio, mostra che

-1 cor(X, Y) 1
-sd(X) sd(Y) cov(X, Y) sd(X) sd(Y)
cor(X, Y) = 1 se e solo se Y = aX + b con probabilità 1 per costanti a > 0 e b.
cor(X, Y) = -1 se e solo se Y = aX + b con probabilità 1 per costanti a < 0 e b.

Questi esercizi mostrano chiaramente che cov(X, Y) e cor(X, Y) misurano l'associazione lineare tra X e Y.

Ricordiamo che il miglior predittore lineare constante di Y, nel senso di minimizzare l'errore quadratico medio, è E(Y) e che il valore minimo dell'errore quadratico medio di tale predittore è var(Y). Pertanto la differenza tra var(Y) e l'errore quadratico medio dell'esercizio 35 è la riduzione della varianza di Y che si ottiene aggiungendo al predittore il termine lineare X.

$Esercizio teorico$ 39. Prova che var(Y) - E[(Y - Y*)²] = var(Y)cor²(X, Y).

La frazione di riduzione è cor²(X, Y), e questa quantità è detta coefficiente di determinazione (della distribuzione). La retta

y = E(Y) + [cov(X, Y) / var(X)][x - E(X)]

è detta retta di regressione (della distribuzione) per Y da X. Osserva che la retta di regressione passa da (E(X), E(Y)), centro della distribuzione congiunta. In ogni caso, la scelta della variabile predittore e della variabile risposta è cruciale.

$Esercizio teorico$ 40. Mostra che la retta di regressione di Y da X e la retta di regressione di X da Y non coincidono, eccettuato il caso triviale in cui le variabili sono perfettamente correlate.

$Esercizio teorico$ 41. Supponi che (X, Y) abbia funzione di densità di probabilità f(x, y) = x + y for 0 < x < 1, 0 < y < 1.

Trova il miglior predittore lineare di Y da X.
Trova il miglior predittore lineare di X da Y.
Trova il coefficiente di determinazione.

$Esercizio teorico$ 42. Supponi che (X, Y) abbia funzione di densità di probabilità f(x, y) = 2(x + y) per 0 < x < y < 1.

Trova il miglior predittore lineare di Y da X.
Trova il miglior predittore lineare di X da Y.
Trova il coefficiente di determinazione.

$Esercizio teorico$ 43. Supponi che (X, Y) abbia funzione di densità di probabilità f(x, y) = 6x²y per 0 < x < 1, 0 < y < 1.

Trova il miglior predittore lineare di Y da X.
Trova il miglior predittore lineare di X da Y.
Trova il coefficiente di determinazione.

$Esercizio teorico$ 44. Supponi che (X, Y) abbia funzione di densità di probabilità f(x, y) = 15x²y per 0 < x < y < 1.

Trova il miglior predittore lineare di Y da X.
Trova il miglior predittore lineare di X da Y.
Trova il coefficiente di determinazione.

$Esercizio teorico$ 45. Si lanciano due dadi equilibrati e si registra la sequenza di punteggi (X₁, X₂). Sia Y = X₁+ X₂ la somma dei punteggi, U = min{X₁, X₂} il punteggio minimo e V = max{X₁, X₂} il punteggio massimo.

Trova il miglior predittore lineare di Y da X₁.
Trova il miglior predittore lineare di U da X₁.
Trova il miglior predittore lineare di V da X₁.

$Esercizio teorico$ 46. Supponi che A e B siano eventi di un esperimento casuale con 0 < P(A) < 1 e 0 < P(B) < 1. Dimostra che

A e B hanno correlazione 1 se e solo se P(A B^c) = 0 e P(B A^c) = 0 (Ovvero A = B con probabilità 1).
A e B hanno correlazione -1 se e solo se P(AB) = 0 e P(B^c A^c) = 0 (Ovvero A = B^c con probabilità 1).

Il corrispondente problema statistico della stima di a e b, quando i parametri della distribuzione dell'esercizio 34 sono ignoti è analizzato nel paragrafo su covarianza e correlazione campionaria. Una generalizzazione naturale del problema che stiamo considerando è trovare la funzione di X (utilizzando tutte le funzioni possibili, non solo quelle lineari) che si avvicina di più a Y nel senso di minimizzare l'errore quadratico medio. La soluzione verrà ricavata nel paragrafo sul valore atteso condizionato.

Prodotto interno

La covarianza è strettamente impartentata con concetti fondamentali nella teoria degli spazi vettoriali. Tale collegamento può essere utile per esaminare da un diverso punto di vista molte delle proprietà della covarianza. In primo luogo, se X e Y sono variabili casuali a valori reali, definiamo il prodotto interno e X e Y come

<X, Y> = E(XY).

Gli esercizi seguenti sono versioni analoghe delle proprietà della covarianza riportate sopra, e mostrano che tale definizione individua in relatà un prodotto interno sullo spazio vettoriale delle variabili casuali con momento secondo finito. (Al solito, diciamo identifiche due variabili casuali che coincidono con probabilità 1).

$Esercizio teorico$ 47. Prova che <X, Y> = <Y, X>.

$Esercizio teorico$ 48. Prova che <X, X> 0.

$Esercizio teorico$ 49. Prova che <X, X> = 0 se e solo se P(X = 0) = 1.

$Esercizio teorico$ 50. Prova che <aX, Y> = a <X, Y>.

$Esercizio teorico$ 51. Prova che <X, Y + Z> = <X, Z> + <Y, Z>

Covarianza e correlazione possono essere semplicemente espresse in termini di questo prodotto interno.

$Esercizio teorico$ 52. Prova che cov(X, Y) = <X - E(X), Y - E(Y)>.

$Esercizio teorico$ 53. Prova che cor(X, Y) = <[X - E(X)] / sd(X), [Y - E(Y)] / sd(Y)>.

Quindi la covarianza di X e Y è il prodotto interno delle corrispondenti variabili centrate. La correlazione di X e Y, invece, è il prodotto interno dei corrispondenti standard score.

La norma associata al prodotto interno è la 2-norma studiata nel paragrafo precedente. Tale risultato è la ragione per cui la 2-norma ha un ruolo fondamentale e speciale; tra tutte le k-norme, solo la 2-norma corrisponde al prodotto interno.

$Esercizio teorico$ 54. Prova che <X, X> = ||X||₂² = E(X²).

Osserva che il miglior predittore lineare di Y da X derivato poc'anzi è semplicemente la proiezione di Y sul sottospazio delle variabili casuali della forma aX + b, dove a e b sono numeri reali.

Il prossimo esercizio riporta la disuguaglianza di Hölder, detta così in onore di Otto Hölder.

$Esercizio teorico$ 55. Supponi che j, k >1 con 1 / j + 1 / k = 1. Prova che <|X|, |Y|> ||X||_j ||Y||_k.

Prova che g(x, y) = x^1/^j y^1/k è concava su {(x, y) in R²: x 0, y 0}.
Usa (a) e la disuguaglianza di Jensen per dimostrare che, se U e V sono variabili casuali non negatice, allora E(U^1/^jV^1/k) [E(U)]^1/^j[E(V)]^1/k.
In (c), poni U = |X|^j, V = |Y|^k.

Nel contesto dell'esercizio precedente, j, k si dicono esponenti coniugati. Se poniamo j = k = 2 nella disuguaglianza di Hölder si ottiene la disuguaglianza di Cauchy-Schwarz, così detta in onore di Augustin Cauchy e Karl Schwarz. Di nuovo , si tratta di una disuguaglianza equivalente a quella dell'esercizio 36.

E(|XY|) [E(X²)]^1/2 [E(Y²)]^1/2.

$Esercizio teorico$ 56. Supponi che (X, Y) abbia funzione di densità f(x, y) = x + y per 0 < x < 1, 0 < y < 1. Verifica disuguaglianza di Hölder nei casi seguenti:

j = k = 2
j = 3, k = 3 / 2.

$Esercizio teorico$ 57. Supponi che j e k siano esponenti coniugati.

Prova che k = j / (j - 1).
Prova che k decresce a 1 per j che tende a .

L'esercizio seguente presenta un risultato analogo a quello dell'esercizio 22.

$Esercizio teorico$ 58. Prova la regola del parallelogramma:

||X + Y||₂² + ||X - Y||₂² = 2||X||₂² + 2||Y||₂².

L'esercizio seguente presenta un risultato analogo a quello dell'esercizio 21.

$Esercizio teorico$ 59. Prova il teorema di Pitagora, scoperto ovviamente da Pitagora: se X₁, X₂, ..., X_n sono variabili casuali con <X_i, X_j> = 0 per i e j distinti, allora

||X₁+ X₂ + ··· + X_n ||₂² = ||X₁||₂² + ||X₂||₂² + ··· + ||X_n||₂².