Laboratorio virtuale > Valore atteso > 1 2 [3] 4 5 6 7

3. Covarianza e correlazione


Ricordiamo che, calcolando il valore atteso di diverse trasformazioni di una variabile casuale, possiamo misurare molte interessanti caratteristiche della distribuzione della variabile. In questo paragrafo studieremo un valore atteso che misura una particolare relazione tra due variabili a valori reali. Tale relazione è estremamente importante sia in probabilità che in statistica.

Definizione

Al solito, iniziamo con l'introdurre un esperimento casuale definito su un certo sapazio campionario e con misura di probabilità P. Supponiamo che X e Y siano variabili casuali a valori reali, relative all'esperimento, con medie E(X), E(Y) e varianze var(X), var(Y) (ipotizzate finite). La covarianza di X e Y è definita come

cov(X, Y) = E{[X - E(X)][Y - E(Y)]}

e (assumendo che le varianze siano positive) la correlazione di X e Y è

cor(X, Y) = cov(X, Y) / [sd(X) sd(Y)].

La correlazione è quindi una versione modificata della covarianza; osserva che i due parametri hanno sempre lo stesso segno (positivo, negativo o 0). Quando il segno è positivo, le variabili si dicono positivamente correlate; quando il segno è negativo negativamente correlate; e quando è 0, le variabili si dicono incorrelate. Come il termine stesso suggerisce, la covarianza e la correlazione misurano un certo tipo di dipendenza tra le due variabili.

Proprietà

Gli esercizi seguenti individuano alcune proprietà fondamentali della covarianza. Ai fini delle dimostrazioni, il risultato da utilizzare è la linearità dell'operatore valore atteso.

Esercizio teorico 1. Prova che cov(X, Y) = E(XY) - E(X)E(Y)

Esercizio teorico 2. Prova che cov(X, Y) = cov(Y, X).

Esercizio teorico 3. Prova che cov(X, X) = var(X).

Esercizio teorico 4. Prova che cov(aX + bY, Z) = a cov(X, Z) + b cov(Y, Z).

Dall'esercizio 1 si osserva che X e Y sono incorrelati se e solo se

E(XY) = E(X)E(Y).

In particolare, se X e Y sono indipendenti, allora sono incorrelati. Il contrario però non è vero, come mostrato nell'esercizio 11.

Esercizio teorico 5. Supponi che Xj, j in J e Yk, k in K siano variabili casuali a valori reali relative a un esperimento e che aj, j in J e bk, k in K siano costanti (J e K sono insiemi finiti di indici). Prova la seguente proprietà (nota come bi-linearità).

cov(sommatoriaj in J aj Xj, sommatoriak in K bk Yk) = sommatoriaj in J sommatoriak in K aj bk cov(Xj, Xk).

Esercizio teorico 6. Dimostra che la correlazione tra X e Y è data dalla covarianza dei corrispondenti standard score:

cor(X, Y) = cov{[X - E(X)] / sd(X), [Y - E(Y)] / sd(Y)].

Esercizi numerici

Esercizio teorico 7. Supponi che (X, Y) sia distribuito uniformemente sul quadrato R = {(x, y): -6 < x < 6, -6 < y < 6}. Mostra che X e Y sono indipendenti e quindi incorrelati.

Simulazione 8. Nell'esperimento uniforme bivariato, seleziona quadrato dal menu a tendina. Simula 1000 replicazioni, aggiornando ogni 10. Nota il valore della correlazione e la forma della nube di punti della dispersione.

Esercizio teorico 9. Supponi che (X, Y) sia distribuito uniformemente sulla regione triangolare R = {(x, y): -6 < y < x < 6}. Prova che

cor(X, Y) = 1/2.

Simulazione 10. Nell'esperimento uniforme bivariato, seleziona triangolo dal menu a tendina. Simula 1000 replicazioni, aggiornando ogni 10. Nota il valore della correlazione e la forma della nube di punti della dispersione.

Esercizio teorico 11. Supponi che (X, Y) sia distribuito uniformemente sulla regione circolare R = {(x, y): x2 + y2 < 36}. Mostra che X e Y sono dipendenti ma incorrelati.

Simulazione 12. Nell'esperimento uniforme bivariato, seleziona cerchio dal menu a tendina. Simula 1000 replicazioni, aggiornando ogni 10. Nota il valore della correlazione e la forma della nube di punti della dispersione.

Esercizio teorico 13. Supponi che X sia distribuito uniformemente sull'intervallo (-1, 1) e Y = X2. Prova che X e Y sono incorrelati anche se Y dipende funzionalmente da X (la forma più forte di dipendenza).

Esercizio teorico 14. Si lanciano due dadi equilibrati e si registrano i punteggi (X1, X2). Sia Y = X1 + X2 la somma dei punteggi, U = min{X1, X2} il punteggio minimo e V = max{X1, X2} il punteggio massimo. Trova covarianza e correlazione delle seguenti coppie di variabili:

  1. X1, X2.
  2. X1, Y.
  3. X1, U.
  4. U, V
  5. U, Y

Esercizio teorico 15. Supponi che X e Y siano variabili casuali con cov(X, Y) = 3. Trova

cov(2X - 5, 4Y + 2).

Esercizio teorico 16. Supponi che (X, Y) abbia funzione di densità di probabilità f(x, y) = x + y per 0 < x < 1, 0 < y < 1. Trova

  1. cov(X, Y)
  2. cor(X, Y).

Esercizio teorico 17. Supponi che (X, Y) abbia funzione di densità di probabilità f(x, y) = 2(x + y) per 0 < x < y < 1. Trova

  1. cov(X, Y)
  2. cor(X, Y).

Esercizio teorico 18. Supponi che (X, Y) abbia funzione di densità di probabilità f(x, y) = 6x2y per 0 < x < 1, 0 < y < 1. Trova

  1. cov(X, Y)
  2. cor(X, Y).

Esercizio teorico 19. Supponi che (X, Y) abbia funzione di densità di probabilità f(x, y) = 15x2y per 0 < x < y < 1. Trova

  1. cov(X, Y)
  2. cor(X, Y).

Varianza della somma

Mostreremo ora che la varianza di una somma di variabili è la somma delle mutue covarianze. Supponiamo che Xj, j in J sia una collezione di variabili casuali a valori reali relative all'esperimento, dove J è un insieme finito di indici

Esercizio teorico 20. Usa i risultati degli esercizi 3 e 5 per mostrare che

var[sommatoriaj in J Xi] = sommatoriaj in Jsommatoriak in K cov(Xj, Xk).

Il risultato dell'esercizio precedente può risultare molto utile; può essere utilizzato per esempio per calcolare la varianza della distribuzione ipergeometrica e la distribuzione delle concordanze.

Esercizio teorico 21. Supponic che X1, X2, ..., Xn siano a due a due incorrelati (ciò vale in particolare se sono mutualmente indipendenti). Prova che

var(X1 + X2 + ··· + Xn ) = var(X1) + var(X2) + ··· + var(Xn).

Esercizio teorico 22. Prova che var(X + Y) + var(X - Y) = 2 var(X) + 2 var(Y).

Esercizio teorico 23. Supponi che var(X) = var(Y). Prova che X + Y e X - Y sono incorrelati.

Esercizio teorico 24. Supponi che X e Y siano variabili casuali con var(X) = 5, var(Y) = 9, cov(X, Y) = -3. Trova var(2X + 3Y - 7).

Esercizio teorico 25. Supponi che X e Y siano variabili indipendenti con var(X) = 6, var(Y) = 8. Trova var(3X - 4Y + 5).

Esercizio teorico 26. Supponi che X1, X2, ..., Xn siano indipendenti e abbiano distribuzione identica con media µ e varianza d2. (Le variabili formano quindi un campione casuale dalla distribuzione comune). Sia Yn = X1 + X2 + ··· + Xn. Prova che 

  1. E(Yn) = nµ.
  2. var(Yn) = n d2.
  3. sd(Yn) = n1/2 d.

Esercizio teorico 27. Nel contesto dell'esercizio precedente, sia Mn = Yn / n. Mn è quindi la media campionaria. Mostra che 

  1. E(Mn) = µ.
  2. var(Mn) = d2 / n.
  3. sd(Mn) = d / n1/2.
  4. var(Mn) converge a 0 per n converge a infinito.
  5. P(|Mn - µ| > r) converge a 0 per n converge a infinito per ogni r > 0 (Suggerimento: Usa la disuguaglianza di Chebyshev).

La parte (e) dell'ultimo esercizio significa che Mn converge a µ per n converge a infinito in probabilità. Si tratta della legge debole dei grandi numeri, uno dei teoremi fondamentali della probabilità. 

Esercizio teorico 28. Supponi di lanciare n dadi equilibrati. 

  1. Trova media e deviazione standard della somma dei punteggi
  2. Trova media e deviazione standard della media dei punteggi

Simulazione 29. Nell'applet dadi, seleziona le variabili casuali seguenti. In ciascun caso, aumenta il numero di dadi e osserva dimensione e posizione della funzione di densità e della barra media-deviazione standard. Con n = 20 dadi, simula 1000 replicazioni, aggiornando ogni 10, e osserva la convergenza dei momenti empirici ai momenti teorici della distribuzione.

  1. Somma dei punteggi
  2. Media dei punteggi

Esercizio teorico 30. Supponi che I1, I2, ..., In siano variabili indicatore indipendenti con P(Ij = 1) = p per ogni j. La distribuzione di X = I1 + I2 + ··· + In è binomiale con parametri n e p. Prova che

  1. E(X) = np
  2. var(X) = np(1 - p).

Eventi

Supponi che A e B siano eventi di un esperimento casuale. La covarianza e la correlazione di A e B sono definire come covarianza e correlazione delle loro rispettive variabili casuali indicatore IA e IB.

Esercizio teorico 31. Prova che

  1. cov(A, B) = P(A B) - P(A)P(B)
  2. cor(A, B) = [P(A B) - P(A)P(B)] / [P(A)P(B)P(Ac)P(Bc)]1/2.

Nota in particolare che A e B sono rispettivamente positivamente correlate, negativamente correlate o indipendenti (come definito nel paragrafo sulla probabilità condizionata) se e solo se le variabili indicatore di A e B sono positivamente correlate, negativamente correlate o indipendenti, come definito in questo paragrafo.

Esercizio teorico 32. Prova che

  1. cov(A, Bc) = -cov(A, B)
  2. cov(Ac, Bc) = cov(A, B)

Esercizio teorico 33. Supponi che A sottinsieme B. Prova che

  1. cov(A, B) = P(A)P(Bc)
  2. cor(A, B) = [P(A)P(Bc) / P(B)P(Ac)]1/2.

Esercizio teorico 34. Supponi che A e B siano eventi di un esperimento con P(A) = 1/2, P(B) = 1/3, P(A B) = 1/8. Trova covarianza e correlazione tra A e B.

Il miglior predittore lineare

Quale funzione lineare di X è più vicina a Y nel senso che minimizza l'errore quadratico medio? La questione riveste importanza fondamentale nel caso in cui la variabile casuale X (la variabile predittore) è osservabile mentre Y (la variabile risposta) non lo è. La funzione lineare può essere utilizzate per stimare Y a partire dai valori osservati di X. La soluzione mostrerà inoltre che covarianza e correlazione misurano la relazione lineare tra X e Y. Per evitare i casi triviali, assumiamo che var(X) > 0 e var(Y) > 0.

Esercizio teorico 35. Prova che

Esercizio teorico 36. Usa le tecniche di analisi per mostrare che E{[Y - (aX + b)]2} è minimo quando

  1. a = cov(X, Y) / var(X)
  2. b = E(Y) - a E(X)

Il miglior predittore lineare di Y da X è quindi

Y* = E(Y) + [cov(X, Y) / var(X)][X - E(X)].

Esercizio teorico 37. Prova che l'errore quadratico medio minimo, tra tutte le funzione lineari di X, è

E[(Y - Y*)2] = var(Y)[1 - cor2(X, Y)].

Esercizio teorico 38. Sulla base dell'ultimo esercizio, mostra che

  1. -1 cor(X, Y) 1
  2. -sd(X) sd(Y) cov(X, Y) sd(X) sd(Y)
  3. cor(X, Y) = 1 se e solo se Y = aX + b con probabilità 1 per costanti a > 0 e b.
  4. cor(X, Y) = -1 se e solo se Y = aX + b con probabilità 1 per costanti a < 0 e b.

Questi esercizi mostrano chiaramente che cov(X, Y) e cor(X, Y) misurano l'associazione lineare tra X e Y.

Ricordiamo che il miglior predittore lineare constante di Y, nel senso di minimizzare l'errore quadratico medio, è E(Y) e che il valore minimo dell'errore quadratico medio di tale predittore è var(Y). Pertanto la differenza tra var(Y) e l'errore quadratico medio dell'esercizio 35 è la riduzione della varianza di Y che si ottiene aggiungendo al predittore il termine lineare X.

Esercizio teorico 39. Prova che var(Y) - E[(Y - Y*)2] = var(Y)cor2(X, Y).

La frazione di riduzione è cor2(X, Y), e questa quantità è detta coefficiente di determinazione (della distribuzione). La retta

y = E(Y) + [cov(X, Y) / var(X)][x - E(X)]

è detta retta di regressione (della distribuzione) per Y da X. Osserva che la retta di regressione passa da (E(X), E(Y)), centro della distribuzione congiunta. In ogni caso, la scelta della variabile predittore e della variabile risposta è cruciale.

Esercizio teorico 40. Mostra che la retta di regressione di Y da X e la retta di regressione di X da Y non coincidono, eccettuato il caso triviale in cui le variabili sono perfettamente correlate.

Esercizio teorico 41. Supponi che (X, Y) abbia funzione di densità di probabilità f(x, y) = x + y for 0 < x < 1, 0 < y < 1.

  1. Trova il miglior predittore lineare di Y da X.
  2. Trova il miglior predittore lineare di X da Y.
  3. Trova il coefficiente di determinazione.

Esercizio teorico 42. Supponi che (X, Y) abbia funzione di densità di probabilità f(x, y) = 2(x + y) per 0 < x < y < 1.

  1. Trova il miglior predittore lineare di Y da X.
  2. Trova il miglior predittore lineare di X da Y.
  3. Trova il coefficiente di determinazione.

Esercizio teorico 43. Supponi che (X, Y) abbia funzione di densità di probabilità f(x, y) = 6x2y per 0 < x < 1, 0 < y < 1.

  1. Trova il miglior predittore lineare di Y da X.
  2. Trova il miglior predittore lineare di X da Y.
  3. Trova il coefficiente di determinazione.

Esercizio teorico 44. Supponi che (X, Y) abbia funzione di densità di probabilità f(x, y) = 15x2y per 0 < x < y < 1.

  1. Trova il miglior predittore lineare di Y da X.
  2. Trova il miglior predittore lineare di X da Y.
  3. Trova il coefficiente di determinazione.

Esercizio teorico 45. Si lanciano due dadi equilibrati e si registra la sequenza di punteggi (X1, X2). Sia Y = X1 + X2 la somma dei punteggi, U = min{X1, X2} il punteggio minimo e V = max{X1, X2} il punteggio massimo.

  1. Trova il miglior predittore lineare di Y da X1.
  2. Trova il miglior predittore lineare di U da X1.
  3. Trova il miglior predittore lineare di V da X1.

Esercizio teorico 46. Supponi che A e B siano eventi di un esperimento casuale con 0 < P(A) < 1 e 0 < P(B) < 1. Dimostra che

  1. A e B hanno correlazione 1 se e solo se P(A intersezione Bc) = 0 e P(B intersezione Ac) = 0 (Ovvero A = B con probabilità 1).
  2. A e B hanno correlazione -1 se e solo se P(A intersezione B) = 0 e P(Bc intersezione Ac) = 0 (Ovvero A = Bc con probabilità 1).

Il corrispondente problema statistico della stima di a e b, quando i parametri della distribuzione dell'esercizio 34 sono ignoti è analizzato nel paragrafo su covarianza e correlazione campionaria. Una generalizzazione naturale del problema che stiamo considerando è trovare la funzione di X (utilizzando tutte le funzioni possibili, non solo quelle lineari) che si avvicina di più a Y nel senso di minimizzare l'errore quadratico medio. La soluzione verrà ricavata nel paragrafo sul valore atteso condizionato.

Prodotto interno

La covarianza è strettamente impartentata con concetti fondamentali nella teoria degli spazi vettoriali. Tale collegamento può essere utile per esaminare da un diverso punto di vista molte delle proprietà della covarianza. In primo luogo, se X e Y sono variabili casuali a valori reali, definiamo il prodotto interno e X e Y come

<X, Y> = E(XY).

Gli esercizi seguenti sono versioni analoghe delle proprietà della covarianza riportate sopra, e mostrano che tale definizione individua in relatà un prodotto interno sullo spazio vettoriale delle variabili casuali con momento secondo finito. (Al solito, diciamo identifiche due variabili casuali che coincidono con probabilità 1).

Esercizio teorico 47. Prova che <X, Y> = <Y, X>.

Esercizio teorico 48. Prova che <X, X> >= 0.

Esercizio teorico 49. Prova che <X, X> = 0 se e solo se P(X = 0) = 1.

Esercizio teorico 50. Prova che <aX, Y> = a <X, Y>.

Esercizio teorico 51. Prova che <X, Y + Z> = <X, Z> + <Y, Z>

Covarianza e correlazione possono essere semplicemente espresse in termini di questo prodotto interno.

Esercizio teorico 52. Prova che cov(X, Y) = <X - E(X), Y - E(Y)>.

Esercizio teorico 53. Prova che cor(X, Y) = <[X - E(X)] / sd(X), [Y - E(Y)] / sd(Y)>.

Quindi la covarianza di X e Y è il prodotto interno delle corrispondenti variabili centrate. La correlazione di X e Y, invece, è il prodotto interno dei corrispondenti standard score.

La norma associata al prodotto interno è la 2-norma studiata nel paragrafo precedente. Tale risultato è la ragione per cui la 2-norma ha un ruolo fondamentale e speciale; tra tutte le k-norme, solo la 2-norma corrisponde al prodotto interno.

Esercizio teorico 54. Prova che <X, X> = ||X||22 = E(X2).

Osserva che il miglior predittore lineare di Y da X derivato poc'anzi è semplicemente la proiezione di Y sul sottospazio delle variabili casuali della forma aX + b, dove a e b sono numeri reali.

Il prossimo esercizio riporta la disuguaglianza di Hölder, detta così in onore di Otto Hölder.

Esercizio teorico 55. Supponi che j, k >1 con 1 / j + 1 / k = 1. Prova che <|X|, |Y|> <= ||X||j ||Y||k.

  1. Prova che g(x, y) = x1/j y1/k è concava su {(x, y) in R2: x >= 0, y >= 0}.
  2. Usa (a) e la disuguaglianza di Jensen per dimostrare che, se U e V sono variabili casuali non negatice, allora E(U1/j V1/k) <= [E(U)]1/j [E(V)]1/k.
  3. In (c), poni U = |X|j, V = |Y|k.

Nel contesto dell'esercizio precedente, j, k si dicono esponenti coniugati. Se poniamo j = k = 2 nella disuguaglianza di Hölder si ottiene la disuguaglianza di Cauchy-Schwarz, così detta in onore di Augustin Cauchy e Karl Schwarz. Di nuovo , si tratta di una disuguaglianza equivalente a quella dell'esercizio 36.

E(|XY|) <= [E(X2)]1/2 [E(Y2)]1/2.

Esercizio teorico 56. Supponi che (X, Y) abbia funzione di densità f(x, y) = x + y per 0 < x < 1, 0 < y < 1. Verifica disuguaglianza di Hölder nei casi seguenti:

  1. j = k = 2
  2. j = 3, k = 3 / 2.

Esercizio teorico 57. Supponi che j e k siano esponenti coniugati.

  1. Prova che k = j / (j - 1).
  2. Prova che k decresce a 1 per j che tende a infinito.

L'esercizio seguente presenta un risultato analogo a quello dell'esercizio 22.

Esercizio teorico 58. Prova la regola del parallelogramma:

||X + Y||22 + ||X - Y||22 = 2||X||22 + 2||Y||22.

L'esercizio seguente presenta un risultato analogo a quello dell'esercizio 21.

Esercizio teorico 59. Prova il teorema di Pitagora, scoperto ovviamente da Pitagora: se X1, X2, ..., Xn sono variabili casuali con <Xi, Xj> = 0 per i e j distinti, allora

||X1 + X2 + ··· + Xn ||22 = ||X1||22 + ||X2||22 + ··· + ||Xn||22.