Laboratorio virtuale > Valore atteso > 1 [2] 3 4 5 6 7
Al solito, iniziamo con l'introdurre un esperimento casuale definito su un certo sapazio campionario e con misura di probabilità P. Supponiamo che X sia una variabile casuale, relativa all'esperimento, a valori in un sottinsieme S di R. Ricordiamo che il valore atteso (o media) di X indica il centro della distribuzione di X. La varianza di X è una misura della dispersione della distribuzione attorno al centro ed è definita come
var(X) = E{[X - E(X)]2}
La varianza è quindi il secondo momento centrale di X.
1. Supponi che X abbia distribuzione discreta con funzione di densità f. Usa il teorema del cambiamento di variabile per mostrare che
var(X) = x in S [x - E(X)]2 f(x).
2. Supponi che X abbia distribuzione continua con funzione di densità f. Usa il teorema del cambiamento di variabile per mostrare che
var(X) = S [x - E(X)]2 f(x)dx.
La deviazione standard di X è la radice quadrata della varianza:
sd(X) = [var(X)]1/2.
Misura anch'essa la dispersione attorno alla media, ma è espressa nella stessa unità di misura di X.
Gli esercizi seguenti riportano alcune proprietà fondamentali della varianza, che si basano sulle proprietà del valore atteso:
3. Dimostra che var(X) = E(X2) - [E(X)]2.
4. Dimostra che var(X) 0
5. Dimostra che var(X) = 0 se e solo se P(X = c) = 1 per una costante c.
6. Dimostra che se a e b sono costanti allora var(aX + b) = a2var(X)
7. Let Z = [X - E(X)] / sd(X). Dimostra che Z ha media 0 e varianza 1.
La variabile casuale Z dell'esercizio 7 è detta a volte standard score associato a X. Poiché X e la sua media e deviazione standard sono espressi nella stessa unità di misura, lo standard score Z è un numero puro. Misura la distanza tra E(X) e X in termini di deviazioni standard.
D'altra parte, quando E(X) è diverso da zero, il rapporto tra deviazione standard e media è detto coefficiente di variazione:
sd(X) / E(X)
Osserva che anche questa quantità è un numero puro, ed è a volte utilizzata per confrontare la variabilità di variabili casuali con medie diverse.
8. Supponi che I sia una variabile indicatore con P(I = 1) = p.
9. Il punteggio di un dado equilibrato è distribuito uniformemente su {1, 2, 3, 4, 5, 6}. Trova media, varianza e deviazione standard.
10. Nell'esperimento dei dadi, seleziona un dado equilibrato. Simula 1000 replicazioni, aggiornando ogni 10, e osserva la convergenza della media e della deviazione standard empiriche ai loro valori teorici.
11. Su un dado piatto uno-sei, le facce 1 e 6 hanno probabilità 1/4 e le facce 2, 3, 4 e 5 hanno probabilità 1/8. Trova media, varianza e deviazione standard.
12. Nell'esperimento dei dadi, seleziona un dado piatto uno-sei. Simula 1000 replicazioni, aggiornando ogni 10, e osserva la convergenza della media e della deviazione standard empiriche ai loro valori teorici.
13. Supponi che X sia distribuita uniformemente su {1, 2, ..., n}. Prova che
var(X) = (n2 - 1) / 12.
14. Supponi che Y abbia funzione di densità f(n) = p(1 - p)n - 1 per n = 1, 2, ..., dove 0 < p < 1 è un parametro. Si ha allora la ditribuzione geometrica con parametro p. Prova che
var(Y) = (1 - p) / p2.
15. Supponi che N abbia funzione di densità f(n) = exp(-t)tn / n! for n = 0, 1, ..., dove t > 0 è un parametro. Si ha allora la distribuzione di Poisson con parametro t. Prova che
var(N) = t.
16. Supponi che X sia distribuita uniformemente sull'intervallo (a, b) con a < b. Prova che
var(X) = (b - a)2 / 12.
Nota in particolare che la varianza dipende solo dalla lunghezza dell'intervallo, il che sembra intuitivamente ragionevole.
17. Supponi che X abbia funzione di densità f(x) = r exp(-rx) per x > 0. Si ha allora una distribuzione esponenziale con parametro di velocità r > 0. Prova che
sd(X) = 1 / r.
18. Nell'esperimento gamma, poni k = 1 per avere una distribuzione esponenziale. Modifica r con la barra a scorrimento e osserva posizione e dimensione della barra media-deviazione standard. Con r = 2, simula 1000 replicazioni, aggiornando ogni 10. Osserva la convergenza della media e della deviazione standard empiriche ai loro valori teorici.
19. Supponi che X abbia densità f(x) = a / xa + 1 for x > 1, dove a > 0 è un parametro. Si ha allora la distribuzione di Pareto con parametro di forma a. Prova che
20. Supponi che Z abbia densità f(z) = exp(-z2 / 2) / (2)1/2 per z appartenente a R. Si ha allora una distribuzione normale standardizzata. Mostra che
var(Z) = 1.
Suggerimento: Integra per parti in E(Z2).
21. Nell'applet variabile casuale, seleziona la distribuzione normale (i parametri preimpostati individuano la normale standardizzata). Simula 1000 replicazioni, aggiornando ogni 10, e osserva la convergenza della media e della deviazione standard empiriche ai loro valori teorici.
22. Supponi che X sia una variabile casuale con E(X) = 5, var(X) = 4. Trova
23. Supponi che X1 e X2 siano variabili casuali indipendenti con E(Xi) = µi, var(X) = di2 for i = 1, 2. Mostra che
var(X1X2) = (d12 + µ12)(d22 + µ22) - µ12µ22.
24. Marilyn Vos Savant ha un quoziente di intelligenza di 228. Assumendo che la distribuzione dei quozienti di intelligenza abbia media 100 e devizione standard 15, trova lo standard score di Marilyn.
La disuguaglianza di Chebyshev (che prende nome da Pafnuty Chebyshev) individua un limite superiore per la probabilità che una variabile casuale sia più distante di un certo valore dalla sua media.
25. Usa la disuguaglianza di Markov per dimostrare la disuguaglianza di Chebyshev: per t > 0,
P[|X - E(X)| t] var(X) / t2.
26. Ricava la seguente versione alternativa della disuguaglianza di Chebyshev: per k > 0,
P[|X - E(X)| k sd(X)] 1 / k2.
27. Supponi che Y abbia distribuzione geometrica con parametro p = 3/4. Calcola il valore vero e il limte superiore di Chebyshev per la probabilità che Y sia distante almeno 2 deviazioni standard dalla media.
28. Supponi che X abbia distribuzione esponenziale con parametro di velocità r > 0. Calcola il valore vero e il limte superiore di Chebyshev per la probabilità che X sia distante almeno deviazioni standard dalla media.
Ricordiamo di nuovo che la varianza di X è il momento secondo di X centrato sulla media e misura la dispersione della ditribuzione di X attorno alla media. I momenti centrali terzo e quarto di X misurano anch'essi caratteristiche interessanti della distribuzione. Il momento terzo misura la skewness, ovvero l'asimmetria, mentre il momento quarto misura la curtosi, ovvero il grado di "appuntimento" della distribuzione. Le misure numeriche di tali caratteristiche vengono standardizzate, per eliminare le unità di misura, dividendo per una potenza appropriata della deviazione standard.
Sia µ = E(X) e d = sd(X). L'asimmetria di X è definita come
skew(X) = E[(X - µ )3] / d3.
la curtosi di X è invece
kurt(X) = E[(X - µ )4] / d4.
29. Supponi che X abbia densità f, simmetrica rispetto a µ. Prova che skew(X) = 0.
30. Prova che
skew(X) = [E(X3) - 3µE(X) + 2µ3] / d3.
31. Prova che
kurt(X) = [E(X4) - 4µE(X) + 6µ2 E(X2) - 3µ4] / d4.
32. Disegna il grafico delle seguenti funzioni di densità e calcola skewness e curtosi. (Si tratta di membri della famiglia beta).
La varianza e i momenti di ordine superiore sono collegati ai concetti di norma e distanza nella teoria degli spazi vettoriali. Tale collegamento può aiutare a connettere e illustrare alcuni dei concetti presentati. Sia X una variabile casuale a valori reali. Per k 1, si definisce la k-norma come
||X||k = [E(|X|k)]1/k.
Quindi ||X||k misura in un certo senso la dimensione di X. Per un dato spazio di probabilità (cioè un dato esperimento casuale), l'insieme delle variabili casuali con momento k-esimo finito forma uno spazio vettoriale (se identifichiamo due varaibili casuali che coincidono con probabilità 1). Gli esercizi seguenti mostrano che la k-norma è di fatto una norma su questo spazio vettoriale.
33. Mostra che ||X||k 0 per ogni X.
34. Mostra che ||X||k = 0 se e solo se P(X = 0) = 1.
35. Mostra che ||cX||k = |c| ||X||k per ogni costante c.
L'esercizio seguente ricava la disuguaglianza di Minkowski, che prende nome da Hermann Minkowski. È detta anche disuguaglianza triangolare.
36. Prova che ||X + Y||k ||X||k + ||Y||k per ogni X e Y.
L'esercizio seguente identifica la disuguaglianza di Lyapunov, che prende nome da Aleksandr Lyapunov. Questa disuguaglianza prova che la k-norma di una variabile casuale è crescente in k.
37. Prova che, se j k, allora ||X||j ||X||k.
La disuguaglianza di Lyapanov mostra che, se X ha momento k-esimo finito e j < k, allora X ha momento j-esimo finito.
38. Supponi che X sia distribuita uniformemente sull'intervallo (0, 1).
39. Supponi che X abbia densità f(x) = a / xa + 1 per x > 1, dove a > 0 è un parametro. Si ha quindi un a distribuzione di Pareto con parametro di forma a.
40. Supponi che (X, Y) abbia densità f(x, y) = x + y per 0 < x < 1, 0 < y < 1. Verifica la disuguaglianza di Minkowski.
La k-norma, come ogni altra norma, può essere utilizzata per misurare la distanza; basta calcolare la norma della differenza tra le unità. Definiamo pertanto la k-distanza (o k-metrica) tra due variabili casuali a valori reali X e Y come
dk(X, Y) = ||Y - X||k = [E(|Y - X|k)]1 / k.
Le proprietà presentate nei prossimi esercizi sono analoghe a quelle degli esercizi 33-36 (e quindi non serve molta fatica in più). Tali proprietà mostrano che la k-distanza è di fatto una misura di distanza.
41. Mostra che dk(X, Y) 0 per ogni X, Y.
42. Mostra che dk(X, Y) = 0 se e solo se P(Y = X) = 1.
43. Mostra che dk(X, Y) dk(X, Z) + dk(Z, Y) per ogni X, Y, Z (si parla anche di disuguaglianza triangolare).
Pertanto, la deviazione standard è semplicemente la 2-distanza tra X e la sua media:
sd(X) = d2[X, E(X)] = {E[(X - E(X)]2}1/2.
e la varianza è il quadrato di tale quantità. Più in generale, il momento k-esimo di X centrato su a è semplicemente la k-esima potenza della k-distanza tra X e a. La 2-distanza è particolaremente importante per ragioni che appariranno più chiare più avanti e nel prossimo paragrafo. Questa distanza è detta inoltre root mean square distance.
Le misure di centro e dispersione possono essere interpretate in maniera interessante nel contesto della misura della distanza. Per una variabile casuale X, in primo luogo si tenta di individuare le costanti t più vicine a X, come misurate dalla distanza data; ogni t è una misura di centralità relativa alla distanza. La minima distanza corrispondente è la misura di dispersione.
Applichiamo questa procedura alla 2-distanza. Definiamo quindi la funzione di errore root mean square come
d2(X, t) = ||X - t||2 = {E[(X - t)2]}1/2.
44. Prova che d2(X, t) è minima per t = E(X) e che il valore minimo è sd(X). Suggerimento: il valore minimo si presenta nello stesso punto del valore minimo di E[(X - t)2]. Espandi e prendi i valori attesi termine a termine. L'espressione risultante è una funzione quadratica di t.
45. Nell'istogramma interattivo, costruisci una distribuzione discreta seguendo le indicazioni sottindicate. Osserva la posizione e la dimensione della barra media ħ deviazione standard e la forma del grafico dell'errore quadratico medio.
Applichiamo ora questa procedura alla 1-distanza. Definiamo pertanto la funzione di errore medio assoluto come
d1(X, t) = ||X - t||1 = E[|X - t|].
46. Prova che d1(X, t) è minima quando t è una mediana di X.
L'ultimo esercizio mostra che l'errore medio assoluto ha un grosso limite come misura di errore poiché non è detto che esista un unico valore di t. Al contario, per molte distribuzioni discrete, esiste un intervallo mediano. Quindi, in termini dell'errore medio assoluto, non c'è ragione per scegliere un valore dell'intervallo piuttosto che un altro.
47. Costruisci le distribuzioni del tipo indicato sotto. In ciascun caso, nota la posizione e la dimensione del boxplot e la forma del grafico dell'errore medio assoluto.
48. Sia I una variabile indicatore con P(I = 1) = p. Disegna il grafico di E[|I - t|] in funzione di t in ciascuno dei seguenti casi. In ogni caso, trova il valore minimo dell'errore medio assoluto e i valori di t in cui si ha il minimo.
Quando si ha una misura di distanza, si ha anche automaticamente un criterio di convergenza. Siano Xn, n = 1, 2, ..., e X variabili casuali a valori reali. Si dice che Xn X per n in media k-esima se
dk(Xn, X) 0 per n , equivalentemente E(|Xn - X|k) 0 per n .
Quando k = 1, diciamo semplicemente che Xn X as n in media; quando k = 2, si dice che Xn X per n in media quadratica. Questi sono i casi particolari più importanti.
49. Usa la disuguaglianza di Ljapunov per mostrare che, se j < k, allora
Xn X per n in media k-esima implica Xn X per n in media j-esima.
La prossima serie di esercizi mostra che la convergenza in media è più forte della convergenza in probabilità.
50. Usa la disuguaglianza di Markov per mostrare che
Xn X per n in media implica Xn X per n in probabilità.
Il contrario non è vero. Inoltre, la convergenza quasi certa non implica la convergenza in media k-esima e vicevera. I prossimi due esercizi riportano alcuni controesempi.
51. Supponi che X1, X2, X3, ... sia una successione di variabili casuali indipendenti con
P(Xn = n3) = 1 / n2, P(Xn = 0) = 1 - 1 / n2 per n = 1, 2, ...
52. Supponi che X1, X2, X3, ... sia una successione di variabili casuali indipendenti con
P(Xn = 1) = 1 / n, P(Xn = 0) = 1 - 1 / n per n = 1, 2, ...
Per tirare le somme, nella seguente tabella il segno di implicazione va da sinistra a destra (con j < k); nessuna altra implicazione vale in generale.
convergenza con probabilità 1 | convergenza in probabilità | convergenza in distribuzione | |
---|---|---|---|
convergenza in media k-esima | convergenza in media j-esima |
Per una trattazione affine dal punto di vista statistico, confronta il paragrafo sulla varianza campionaria nel capitolo sui campioni casuali. La varianza della somma di variabili casauali può essere capita meglio basandosi su un concetto affine noto come covarianza, che sarà trattato in dettaglio nel prossimo paragrafo.