Laboratorio virtuale > Valore atteso > 1 2 [3] 4 5 6 7
Ricordiamo che, calcolando il valore atteso di diverse trasformazioni di una variabile casuale, possiamo misurare molte interessanti caratteristiche della distribuzione della variabile. In questo paragrafo studieremo un valore atteso che misura una particolare relazione tra due variabili a valori reali. Tale relazione è estremamente importante sia in probabilità che in statistica.
Al solito, iniziamo con l'introdurre un esperimento casuale definito su un certo sapazio campionario e con misura di probabilità P. Supponiamo che X e Y siano variabili casuali a valori reali, relative all'esperimento, con medie E(X), E(Y) e varianze var(X), var(Y) (ipotizzate finite). La covarianza di X e Y è definita come
cov(X, Y) = E{[X - E(X)][Y - E(Y)]}
e (assumendo che le varianze siano positive) la correlazione di X e Y è
cor(X, Y) = cov(X, Y) / [sd(X) sd(Y)].
La correlazione è quindi una versione modificata della covarianza; osserva che i due parametri hanno sempre lo stesso segno (positivo, negativo o 0). Quando il segno è positivo, le variabili si dicono positivamente correlate; quando il segno è negativo negativamente correlate; e quando è 0, le variabili si dicono incorrelate. Come il termine stesso suggerisce, la covarianza e la correlazione misurano un certo tipo di dipendenza tra le due variabili.
Gli esercizi seguenti individuano alcune proprietà fondamentali della covarianza. Ai fini delle dimostrazioni, il risultato da utilizzare è la linearità dell'operatore valore atteso.
1. Prova che cov(X, Y) = E(XY) - E(X)E(Y)
2. Prova che cov(X, Y) = cov(Y, X).
3. Prova che cov(X, X) = var(X).
4. Prova che cov(aX + bY, Z) = a cov(X, Z) + b cov(Y, Z).
Dall'esercizio 1 si osserva che X e Y sono incorrelati se e solo se
E(XY) = E(X)E(Y).
In particolare, se X e Y sono indipendenti, allora sono incorrelati. Il contrario però non è vero, come mostrato nell'esercizio 11.
5. Supponi che Xj, j in J e Yk, k in K siano variabili casuali a valori reali relative a un esperimento e che aj, j in J e bk, k in K siano costanti (J e K sono insiemi finiti di indici). Prova la seguente proprietà (nota come bi-linearità).
cov(j in J aj Xj, k in K bk Yk) = j in J k in K aj bk cov(Xj, Xk).
6. Dimostra che la correlazione tra X e Y è data dalla covarianza dei corrispondenti standard score:
cor(X, Y) = cov{[X - E(X)] / sd(X), [Y - E(Y)] / sd(Y)].
7. Supponi che (X, Y) sia distribuito uniformemente sul quadrato R = {(x, y): -6 < x < 6, -6 < y < 6}. Mostra che X e Y sono indipendenti e quindi incorrelati.
8. Nell'esperimento uniforme bivariato, seleziona quadrato dal menu a tendina. Simula 1000 replicazioni, aggiornando ogni 10. Nota il valore della correlazione e la forma della nube di punti della dispersione.
9. Supponi che (X, Y) sia distribuito uniformemente sulla regione triangolare R = {(x, y): -6 < y < x < 6}. Prova che
cor(X, Y) = 1/2.
10. Nell'esperimento uniforme bivariato, seleziona triangolo dal menu a tendina. Simula 1000 replicazioni, aggiornando ogni 10. Nota il valore della correlazione e la forma della nube di punti della dispersione.
11. Supponi che (X, Y) sia distribuito uniformemente sulla regione circolare R = {(x, y): x2 + y2 < 36}. Mostra che X e Y sono dipendenti ma incorrelati.
12. Nell'esperimento uniforme bivariato, seleziona cerchio dal menu a tendina. Simula 1000 replicazioni, aggiornando ogni 10. Nota il valore della correlazione e la forma della nube di punti della dispersione.
13. Supponi che X sia distribuito uniformemente sull'intervallo (-1, 1) e Y = X2. Prova che X e Y sono incorrelati anche se Y dipende funzionalmente da X (la forma più forte di dipendenza).
14. Si lanciano due dadi equilibrati e si registrano i punteggi (X1, X2). Sia Y = X1 + X2 la somma dei punteggi, U = min{X1, X2} il punteggio minimo e V = max{X1, X2} il punteggio massimo. Trova covarianza e correlazione delle seguenti coppie di variabili:
15. Supponi che X e Y siano variabili casuali con cov(X, Y) = 3. Trova
cov(2X - 5, 4Y + 2).
16. Supponi che (X, Y) abbia funzione di densità di probabilità f(x, y) = x + y per 0 < x < 1, 0 < y < 1. Trova
17. Supponi che (X, Y) abbia funzione di densità di probabilità f(x, y) = 2(x + y) per 0 < x < y < 1. Trova
18. Supponi che (X, Y) abbia funzione di densità di probabilità f(x, y) = 6x2y per 0 < x < 1, 0 < y < 1. Trova
19. Supponi che (X, Y) abbia funzione di densità di probabilità f(x, y) = 15x2y per 0 < x < y < 1. Trova
Mostreremo ora che la varianza di una somma di variabili è la somma delle mutue covarianze. Supponiamo che Xj, j in J sia una collezione di variabili casuali a valori reali relative all'esperimento, dove J è un insieme finito di indici
20. Usa i risultati degli esercizi 3 e 5 per mostrare che
var[j in J Xi] = j in Jk in K cov(Xj, Xk).
Il risultato dell'esercizio precedente può risultare molto utile; può essere utilizzato per esempio per calcolare la varianza della distribuzione ipergeometrica e la distribuzione delle concordanze.
21. Supponic che X1, X2, ..., Xn siano a due a due incorrelati (ciò vale in particolare se sono mutualmente indipendenti). Prova che
var(X1 + X2 + ··· + Xn ) = var(X1) + var(X2) + ··· + var(Xn).
22. Prova che var(X + Y) + var(X - Y) = 2 var(X) + 2 var(Y).
23. Supponi che var(X) = var(Y). Prova che X + Y e X - Y sono incorrelati.
24. Supponi che X e Y siano variabili casuali con var(X) = 5, var(Y) = 9, cov(X, Y) = -3. Trova var(2X + 3Y - 7).
25. Supponi che X e Y siano variabili indipendenti con var(X) = 6, var(Y) = 8. Trova var(3X - 4Y + 5).
26. Supponi che X1, X2, ..., Xn siano indipendenti e abbiano distribuzione identica con media µ e varianza d2. (Le variabili formano quindi un campione casuale dalla distribuzione comune). Sia Yn = X1 + X2 + ··· + Xn. Prova che
27. Nel contesto dell'esercizio precedente, sia Mn = Yn / n. Mn è quindi la media campionaria. Mostra che
La parte (e) dell'ultimo esercizio significa che Mn µ per n in probabilità. Si tratta della legge debole dei grandi numeri, uno dei teoremi fondamentali della probabilità.
28. Supponi di lanciare n dadi equilibrati.
29. Nell'applet dadi, seleziona le variabili casuali seguenti. In ciascun caso, aumenta il numero di dadi e osserva dimensione e posizione della funzione di densità e della barra media-deviazione standard. Con n = 20 dadi, simula 1000 replicazioni, aggiornando ogni 10, e osserva la convergenza dei momenti empirici ai momenti teorici della distribuzione.
30. Supponi che I1, I2, ..., In siano variabili indicatore indipendenti con P(Ij = 1) = p per ogni j. La distribuzione di X = I1 + I2 + ··· + In è binomiale con parametri n e p. Prova che
Supponi che A e B siano eventi di un esperimento casuale. La covarianza e la correlazione di A e B sono definire come covarianza e correlazione delle loro rispettive variabili casuali indicatore IA e IB.
31. Prova che
Nota in particolare che A e B sono rispettivamente positivamente correlate, negativamente correlate o indipendenti (come definito nel paragrafo sulla probabilità condizionata) se e solo se le variabili indicatore di A e B sono positivamente correlate, negativamente correlate o indipendenti, come definito in questo paragrafo.
32. Prova che
33. Supponi che A B. Prova che
34. Supponi che A e B siano eventi di un esperimento con P(A) = 1/2, P(B) = 1/3, P(A B) = 1/8. Trova covarianza e correlazione tra A e B.
Quale funzione lineare di X è più vicina a Y nel senso che minimizza l'errore quadratico medio? La questione riveste importanza fondamentale nel caso in cui la variabile casuale X (la variabile predittore) è osservabile mentre Y (la variabile risposta) non lo è. La funzione lineare può essere utilizzate per stimare Y a partire dai valori osservati di X. La soluzione mostrerà inoltre che covarianza e correlazione misurano la relazione lineare tra X e Y. Per evitare i casi triviali, assumiamo che var(X) > 0 e var(Y) > 0.
35. Prova che
36. Usa le tecniche di analisi per mostrare che E{[Y - (aX + b)]2} è minimo quando
Il miglior predittore lineare di Y da X è quindi
Y* = E(Y) + [cov(X, Y) / var(X)][X - E(X)].
37. Prova che l'errore quadratico medio minimo, tra tutte le funzione lineari di X, è
E[(Y - Y*)2] = var(Y)[1 - cor2(X, Y)].
38. Sulla base dell'ultimo esercizio, mostra che
Questi esercizi mostrano chiaramente che cov(X, Y) e cor(X, Y) misurano l'associazione lineare tra X e Y.
Ricordiamo che il miglior predittore lineare constante di Y, nel senso di minimizzare l'errore quadratico medio, è E(Y) e che il valore minimo dell'errore quadratico medio di tale predittore è var(Y). Pertanto la differenza tra var(Y) e l'errore quadratico medio dell'esercizio 35 è la riduzione della varianza di Y che si ottiene aggiungendo al predittore il termine lineare X.
39. Prova che var(Y) - E[(Y - Y*)2] = var(Y)cor2(X, Y).
La frazione di riduzione è cor2(X, Y), e questa quantità è detta coefficiente di determinazione (della distribuzione). La retta
y = E(Y) + [cov(X, Y) / var(X)][x - E(X)]
è detta retta di regressione (della distribuzione) per Y da X. Osserva che la retta di regressione passa da (E(X), E(Y)), centro della distribuzione congiunta. In ogni caso, la scelta della variabile predittore e della variabile risposta è cruciale.
40. Mostra che la retta di regressione di Y da X e la retta di regressione di X da Y non coincidono, eccettuato il caso triviale in cui le variabili sono perfettamente correlate.
41. Supponi che (X, Y) abbia funzione di densità di probabilità f(x, y) = x + y for 0 < x < 1, 0 < y < 1.
42. Supponi che (X, Y) abbia funzione di densità di probabilità f(x, y) = 2(x + y) per 0 < x < y < 1.
43. Supponi che (X, Y) abbia funzione di densità di probabilità f(x, y) = 6x2y per 0 < x < 1, 0 < y < 1.
44. Supponi che (X, Y) abbia funzione di densità di probabilità f(x, y) = 15x2y per 0 < x < y < 1.
45. Si lanciano due dadi equilibrati e si registra la sequenza di punteggi (X1, X2). Sia Y = X1 + X2 la somma dei punteggi, U = min{X1, X2} il punteggio minimo e V = max{X1, X2} il punteggio massimo.
46. Supponi che A e B siano eventi di un esperimento casuale con 0 < P(A) < 1 e 0 < P(B) < 1. Dimostra che
Il corrispondente problema statistico della stima di a e b, quando i parametri della distribuzione dell'esercizio 34 sono ignoti è analizzato nel paragrafo su covarianza e correlazione campionaria. Una generalizzazione naturale del problema che stiamo considerando è trovare la funzione di X (utilizzando tutte le funzioni possibili, non solo quelle lineari) che si avvicina di più a Y nel senso di minimizzare l'errore quadratico medio. La soluzione verrà ricavata nel paragrafo sul valore atteso condizionato.
La covarianza è strettamente impartentata con concetti fondamentali nella teoria degli spazi vettoriali. Tale collegamento può essere utile per esaminare da un diverso punto di vista molte delle proprietà della covarianza. In primo luogo, se X e Y sono variabili casuali a valori reali, definiamo il prodotto interno e X e Y come
<X, Y> = E(XY).
Gli esercizi seguenti sono versioni analoghe delle proprietà della covarianza riportate sopra, e mostrano che tale definizione individua in relatà un prodotto interno sullo spazio vettoriale delle variabili casuali con momento secondo finito. (Al solito, diciamo identifiche due variabili casuali che coincidono con probabilità 1).
47. Prova che <X, Y> = <Y, X>.
48. Prova che <X, X> 0.
49. Prova che <X, X> = 0 se e solo se P(X = 0) = 1.
50. Prova che <aX, Y> = a <X, Y>.
51. Prova che <X, Y + Z> = <X, Z> + <Y, Z>
Covarianza e correlazione possono essere semplicemente espresse in termini di questo prodotto interno.
52. Prova che cov(X, Y) = <X - E(X), Y - E(Y)>.
53. Prova che cor(X, Y) = <[X - E(X)] / sd(X), [Y - E(Y)] / sd(Y)>.
Quindi la covarianza di X e Y è il prodotto interno delle corrispondenti variabili centrate. La correlazione di X e Y, invece, è il prodotto interno dei corrispondenti standard score.
La norma associata al prodotto interno è la 2-norma studiata nel paragrafo precedente. Tale risultato è la ragione per cui la 2-norma ha un ruolo fondamentale e speciale; tra tutte le k-norme, solo la 2-norma corrisponde al prodotto interno.
54. Prova che <X, X> = ||X||22 = E(X2).
Osserva che il miglior predittore lineare di Y da X derivato poc'anzi è semplicemente la proiezione di Y sul sottospazio delle variabili casuali della forma aX + b, dove a e b sono numeri reali.
Il prossimo esercizio riporta la disuguaglianza di Hölder, detta così in onore di Otto Hölder.
55. Supponi che j, k >1 con 1 / j + 1 / k = 1. Prova che <|X|, |Y|> ||X||j ||Y||k.
Nel contesto dell'esercizio precedente, j, k si dicono esponenti coniugati. Se poniamo j = k = 2 nella disuguaglianza di Hölder si ottiene la disuguaglianza di Cauchy-Schwarz, così detta in onore di Augustin Cauchy e Karl Schwarz. Di nuovo , si tratta di una disuguaglianza equivalente a quella dell'esercizio 36.
E(|XY|) [E(X2)]1/2 [E(Y2)]1/2.
56. Supponi che (X, Y) abbia funzione di densità f(x, y) = x + y per 0 < x < 1, 0 < y < 1. Verifica disuguaglianza di Hölder nei casi seguenti:
57. Supponi che j e k siano esponenti coniugati.
L'esercizio seguente presenta un risultato analogo a quello dell'esercizio 22.
58. Prova la regola del parallelogramma:
||X + Y||22 + ||X - Y||22 = 2||X||22 + 2||Y||22.
L'esercizio seguente presenta un risultato analogo a quello dell'esercizio 21.
59.
Prova il teorema di Pitagora, scoperto ovviamente da Pitagora: se X1,
X2, ..., Xn sono variabili casuali con
||X1 + X2 + ··· + Xn ||22 = ||X1||22 + ||X2||22 + ··· + ||Xn||22.