Laboratorio virtuale > Valore atteso > 1 [2] 3 4 5 6 7

2. Varianza e momenti superiori


Definizione

Al solito, iniziamo con l'introdurre un esperimento casuale definito su un certo sapazio campionario e con misura di probabilità P. Supponiamo che X sia una variabile casuale, relativa all'esperimento, a valori in un sottinsieme S di R. Ricordiamo che il valore atteso (o media) di X indica il centro della distribuzione di X. La varianza di X è una misura della dispersione della distribuzione attorno al centro ed è definita come

var(X) = E{[X - E(X)]2}

La varianza è quindi il secondo momento centrale di X.

Esercizio teorico 1. Supponi che X abbia distribuzione discreta con funzione di densità f. Usa il teorema del cambiamento di variabile per mostrare che

var(X) = sommatoriax in S [x - E(X)]2 f(x).

Esercizio teorico 2. Supponi che X abbia distribuzione continua con funzione di densità f. Usa il teorema del cambiamento di variabile per mostrare che

var(X) = integraleS [x - E(X)]2 f(x)dx.

La deviazione standard di X è la radice quadrata della varianza:

sd(X) = [var(X)]1/2.

Misura anch'essa la dispersione attorno alla media, ma è espressa nella stessa unità di misura di X.

Proprietà

Gli esercizi seguenti riportano alcune proprietà fondamentali della varianza, che si basano sulle proprietà del valore atteso:

Esercizio teorico 3. Dimostra che var(X) = E(X2) - [E(X)]2.

Esercizio teorico 4. Dimostra che var(X) 0

Esercizio teorico 5. Dimostra che var(X) = 0 se e solo se P(X = c) = 1 per una costante c.

Esercizio teorico 6. Dimostra che se a e b sono costanti allora var(aX + b) = a2var(X)

Esercizio teorico 7. Let Z = [X - E(X)] / sd(X). Dimostra che Z ha media 0 e varianza 1.

La variabile casuale Z dell'esercizio 7 è detta a volte standard score associato a X. Poiché X e la sua media e deviazione standard sono espressi nella stessa unità di misura, lo standard score Z è un numero puro. Misura la distanza tra E(X) e X in termini di deviazioni standard.

D'altra parte, quando E(X) è diverso da zero, il rapporto tra deviazione standard e media è detto coefficiente di variazione:

sd(X) / E(X)

Osserva che anche questa quantità è un numero puro, ed è a volte utilizzata per confrontare la variabilità di variabili casuali con medie diverse.

Esempi e casi particolari

Esercizio teorico 8. Supponi che I sia una variabile indicatore con P(I = 1) = p.

  1. Mostra che var(I) = p(1 - p).
  2. Disegna il grafico di var(I) in funzione di p.
  3. Trova il valore di p che massimizza var(I).

Esercizio teorico 9. Il punteggio di un dado equilibrato è distribuito uniformemente su {1, 2, 3, 4, 5, 6}. Trova media, varianza e deviazione standard.

Simulazione 10. Nell'esperimento dei dadi, seleziona un dado equilibrato. Simula 1000 replicazioni, aggiornando ogni 10, e osserva la convergenza della media e della deviazione standard empiriche ai loro valori teorici.

Esercizio teorico 11. Su un dado piatto uno-sei, le facce 1 e 6 hanno probabilità 1/4 e le facce 2, 3, 4 e 5 hanno probabilità 1/8. Trova media, varianza e deviazione standard.

Simulazione 12. Nell'esperimento dei dadi, seleziona un dado piatto uno-sei. Simula 1000 replicazioni, aggiornando ogni 10, e osserva la convergenza della media e della deviazione standard empiriche ai loro valori teorici.

Esercizio teorico 13. Supponi che X sia distribuita uniformemente su {1, 2, ..., n}. Prova che

var(X) = (n2 - 1) / 12.

Esercizio teorico 14. Supponi che Y abbia funzione di densità f(n) = p(1 - p)n - 1 per n = 1, 2, ..., dove 0 < p < 1 è un parametro. Si ha allora la ditribuzione geometrica con parametro p. Prova che

var(Y) = (1 - p) / p2.

Esercizio teorico 15. Supponi che N abbia funzione di densità f(n) = exp(-t)tn / n! for n = 0, 1, ..., dove t > 0 è un parametro. Si ha allora la distribuzione di Poisson con parametro t. Prova che

var(N) = t.

Esercizio teorico 16. Supponi che X sia distribuita uniformemente sull'intervallo (a, b) con a < b. Prova che

var(X) = (b - a)2 / 12.

Nota in particolare che la varianza dipende solo dalla lunghezza dell'intervallo, il che sembra intuitivamente ragionevole.

Esercizio teorico 17. Supponi che X abbia funzione di densità f(x) = r exp(-rx) per x > 0. Si ha allora una distribuzione esponenziale con parametro di velocità r > 0. Prova che

sd(X) = 1 / r.

Simulazione 18. Nell'esperimento gamma, poni k = 1 per avere una distribuzione esponenziale. Modifica r con la barra a scorrimento e osserva posizione e dimensione della barra media-deviazione standard. Con r = 2, simula 1000 replicazioni, aggiornando ogni 10. Osserva la convergenza della media e della deviazione standard empiriche ai loro valori teorici.

Esercizio teorico 19. Supponi che X abbia densità f(x) = a / xa + 1 for x > 1, dove a > 0 è un parametro. Si ha allora la distribuzione di Pareto con parametro di forma a. Prova che

  1. var(X) = infinity se 1 < a <= 2
  2. var(X) = a / [(a - 1)2(a - 2)] se a > 2.

Esercizio teorico 20. Supponi che Z abbia densità f(z) = exp(-z2 / 2) / (2pi)1/2 per z appartenente a R. Si ha allora una distribuzione normale standardizzata. Mostra che

var(Z) = 1.

Suggerimento: Integra per parti in E(Z2).

Simulazione 21. Nell'applet variabile casuale, seleziona la distribuzione normale (i parametri preimpostati individuano la normale standardizzata). Simula 1000 replicazioni, aggiornando ogni 10, e osserva la convergenza della media e della deviazione standard empiriche ai loro valori teorici.

Esercizio teorico 22. Supponi che X sia una variabile casuale con E(X) = 5, var(X) = 4. Trova

  1. var(3X - 2)
  2. E(X2)

Esercizio teorico 23. Supponi che X1 e X2 siano variabili casuali indipendenti con E(Xi) = µi, var(X) = di2 for i = 1, 2. Mostra che

var(X1X2) = (d12 + µ12)(d22 + µ22) - µ12µ22.

Esercizio teorico 24. Marilyn Vos Savant ha un quoziente di intelligenza di 228. Assumendo che la distribuzione dei quozienti di intelligenza abbia media 100 e devizione standard 15, trova lo standard score di Marilyn.

La disuguaglianza di Chebyshev

La disuguaglianza di Chebyshev (che prende nome da Pafnuty Chebyshev) individua un limite superiore per la probabilità che una variabile casuale sia più distante di un certo valore dalla sua media.

Esercizio teorico 25. Usa la disuguaglianza di Markov per dimostrare la disuguaglianza di Chebyshev: per t > 0,

P[|X - E(X)| t] <= var(X) / t2.

Esercizio teorico 26. Ricava la seguente versione alternativa della disuguaglianza di Chebyshev: per k > 0,

P[|X - E(X)| k sd(X)] <= 1 / k2.

Esercizio teorico 27. Supponi che Y abbia distribuzione geometrica con parametro p = 3/4. Calcola il valore vero e il limte superiore di Chebyshev per la probabilità che Y sia distante almeno 2 deviazioni standard dalla media.

Esercizio teorico 28. Supponi che X abbia distribuzione esponenziale con parametro di velocità r > 0. Calcola il valore vero e il limte superiore di Chebyshev per la probabilità che X sia distante almeno deviazioni standard dalla media.

Asimmetria e curtosi

Ricordiamo di nuovo che la varianza di X è il momento secondo di X centrato sulla media e misura la dispersione della ditribuzione di X attorno alla media. I momenti centrali terzo e quarto di X misurano anch'essi caratteristiche interessanti della distribuzione. Il momento terzo misura la skewness, ovvero l'asimmetria, mentre il momento quarto misura la curtosi, ovvero il grado di "appuntimento" della distribuzione. Le misure numeriche di tali caratteristiche vengono standardizzate, per eliminare le unità di misura, dividendo per una potenza appropriata della deviazione standard.

Sia µ = E(X) e d = sd(X). L'asimmetria di X è definita come

skew(X) = E[(X - µ )3] / d3.

la curtosi di X è invece

kurt(X) = E[(X - µ )4] / d4.

Esercizio teorico 29. Supponi che X abbia densità f, simmetrica rispetto a µ. Prova che skew(X) = 0.

Esercizio teorico 30. Prova che

skew(X) = [E(X3) - 3µE(X) + 2µ3] / d3.

Esercizio teorico 31. Prova che

kurt(X) = [E(X4) - 4µE(X) + 6µ2 E(X2) - 3µ4] / d4.

Esercizio teorico 32. Disegna il grafico delle seguenti funzioni di densità e calcola skewness e curtosi. (Si tratta di membri della famiglia beta).

  1. f(x) = 6x(1 - x), 0 < x < 1.
  2. f(x) = 12x2(1 - x), 0 < x < 1.
  3. f(x) = 12x(1 - x)2, 0 < x < 1.

Norma

La varianza e i momenti di ordine superiore sono collegati ai concetti di norma e distanza nella teoria degli spazi vettoriali. Tale collegamento può aiutare a connettere e illustrare alcuni dei concetti presentati. Sia X una variabile casuale a valori reali. Per k >= 1, si definisce la k-norma come

||X||k = [E(|X|k)]1/k.

Quindi ||X||k misura in un certo senso la dimensione di X. Per un dato spazio di probabilità (cioè un dato esperimento casuale), l'insieme delle variabili casuali con momento k-esimo finito forma uno spazio vettoriale (se identifichiamo due varaibili casuali che coincidono con probabilità 1). Gli esercizi seguenti mostrano che la k-norma è di fatto una norma su questo spazio vettoriale.

Esercizio teorico 33. Mostra che ||X||k >= 0 per ogni X.

Esercizio teorico 34. Mostra che ||X||k = 0 se e solo se P(X = 0) = 1.

Esercizio teorico 35. Mostra che ||cX||k = |c| ||X||k per ogni costante c.

L'esercizio seguente ricava la disuguaglianza di Minkowski, che prende nome da Hermann Minkowski. È detta anche disuguaglianza triangolare.

Esercizio teorico 36. Prova che ||X + Y||k <= ||X||k + ||Y||k per ogni X e Y.

  1. Prova che g(x, y) = (x1/k + y1/k)k è concava su {(x, y) in R2: x >= 0, y >= 0}.
  2. Usa (a) e la disuguaglianza di Jensen per concludere che, se U e V sono varaibili casuali non negative, allora E[(U1/k + V1/k)k] <= {[E(U)]1/k + [E(V)]1/k}k.
  3. In (b) poni U = |X|k e V = |Y|k ed effettua qualche manovra algebrica.

L'esercizio seguente identifica la disuguaglianza di Lyapunov, che prende nome da Aleksandr Lyapunov. Questa disuguaglianza prova che la k-norma di una variabile casuale è crescente in k.

Esercizio teorico 37. Prova che, se j <= k, allora ||X||j <= ||X||k.

  1. Mostra che g(x) = xk/j è convessa su {x: x >= 0}.
  2. Usa (a) e la disuguaglianza di Jensen per concludere che, se U è una variabile casuale non negativa, allora [E(U)]k/j <= E(Uk/j).
  3. In (b), poni U = |X|j ed effettua qualche manovra algebrica.

La disuguaglianza di Lyapanov mostra che, se X ha momento k-esimo finito e j < k, allora X ha momento j-esimo finito.

Esercizio teorico 38. Supponi che X sia distribuita uniformemente sull'intervallo (0, 1).

  1. Trova ||X||k.
  2. Disegna ||X||k in funzione di k.
  3. Trova il limite ||X||k per k tende a infinito.

Esercizio teorico 39. Supponi che X abbia densità f(x) = a / xa + 1 per x > 1, dove a > 0 è un parametro. Si ha quindi un a distribuzione di Pareto con parametro di forma a.

  1. Trova ||X||k.
  2. Disegna ||X||k in funzione k < a.
  3. Trova il limite ||X||k per k tende a a-.

Esercizio teorico 40. Supponi che (X, Y) abbia densità f(x, y) = x + y per 0 < x < 1, 0 < y < 1. Verifica la disuguaglianza di Minkowski.

Distanza

La k-norma, come ogni altra norma, può essere utilizzata per misurare la distanza; basta calcolare la norma della differenza tra le unità. Definiamo pertanto la k-distanza (o k-metrica) tra due variabili casuali a valori reali X e Y come

dk(X, Y) = ||Y - X||k = [E(|Y - X|k)]1 / k.

Le proprietà presentate nei prossimi esercizi sono analoghe a quelle degli esercizi 33-36 (e quindi non serve molta fatica in più). Tali proprietà mostrano che la k-distanza è di fatto una misura di distanza.

Esercizio teorico 41. Mostra che dk(X, Y) >= 0 per ogni X, Y.

Esercizio teorico 42. Mostra che dk(X, Y) = 0 se e solo se P(Y = X) = 1.

Esercizio teorico 43. Mostra che dk(X, Y) <= dk(X, Z) + dk(Z, Y) per ogni X, Y, Z (si parla anche di disuguaglianza triangolare).

Pertanto, la deviazione standard è semplicemente la 2-distanza tra X e la sua media:

sd(X) = d2[X, E(X)] = {E[(X - E(X)]2}1/2.

e la varianza è il quadrato di tale quantità. Più in generale, il momento k-esimo di X centrato su a è semplicemente la k-esima potenza della k-distanza tra X e a. La 2-distanza è particolaremente importante per ragioni che appariranno più chiare più avanti e nel prossimo paragrafo. Questa distanza è detta inoltre root mean square distance.

Centro e dispersione da un'altra angolazione

Le misure di centro e dispersione possono essere interpretate in maniera interessante nel contesto della misura della distanza. Per una variabile casuale X, in primo luogo si tenta di individuare le costanti t più vicine a X, come misurate dalla distanza data; ogni t è una misura di centralità relativa alla distanza. La minima distanza corrispondente è la misura di dispersione.

Applichiamo questa procedura alla 2-distanza. Definiamo quindi la funzione di errore root mean square come

d2(X, t) = ||X - t||2 = {E[(X - t)2]}1/2.

Esercizio teorico 44. Prova che d2(X, t) è minima per t = E(X) e che il valore minimo è sd(X). Suggerimento: il valore minimo si presenta nello stesso punto del valore minimo di E[(X - t)2]. Espandi e prendi i valori attesi termine a termine. L'espressione risultante è una funzione quadratica di t.

Simulazione 45. Nell'istogramma interattivo, costruisci una distribuzione discreta seguendo le indicazioni sottindicate. Osserva la posizione e la dimensione della barra media ħ deviazione standard e la forma del grafico dell'errore quadratico medio.

  1. Distribuzione uniforme
  2. Distribuzione simmetrica unimodale
  3. Distribuzione unimodale asimmetrica a destra
  4. Distribuzione unimodale asimmetrica a sinistra
  5. Distribuzione simmetrica bimodale
  6. Distribuzione a forma di u

Applichiamo ora questa procedura alla 1-distanza. Definiamo pertanto la funzione di errore medio assoluto come

d1(X, t) = ||X - t||1 = E[|X - t|].

Esercizio teorico 46. Prova che d1(X, t) è minima quando t è una mediana di X.

L'ultimo esercizio mostra che l'errore medio assoluto ha un grosso limite come misura di errore poiché non è detto che esista un unico valore di t. Al contario, per molte distribuzioni discrete, esiste un intervallo mediano. Quindi, in termini dell'errore medio assoluto, non c'è ragione per scegliere un valore dell'intervallo piuttosto che un altro.

Simulazione 47. Costruisci le distribuzioni del tipo indicato sotto. In ciascun caso, nota la posizione e la dimensione del boxplot e la forma del grafico dell'errore medio assoluto.

  1. Distribuzione uniforme
  2. Distribuzione simmetrica unimodale
  3. Distribuzione unimodale asimmetrica a destra
  4. Distribuzione unimodale asimmetrica a sinistra
  5. Distribuzione simmetrica bimodale
  6. Distribuzione a forma di u

Esercizio teorico 48. Sia I una variabile indicatore con P(I = 1) = p. Disegna il grafico di E[|I - t|] in funzione di t in ciascuno dei seguenti casi. In ogni caso, trova il valore minimo dell'errore medio assoluto e i valori di t in cui si ha il minimo.

  1. p < 1/2
  2. p = 1/2
  3. p > 1/2

Convergenza

Quando si ha una misura di distanza, si ha anche automaticamente un criterio di convergenza. Siano Xn, n = 1, 2, ..., e X variabili casuali a valori reali. Si dice che Xn converges to X per nconverges to in media k-esima se

dk(Xn, X) converge a 0 per n converge a infinity, equivalentemente E(|Xn - X|k) converge a 0 per n converge a infinito.

Quando k = 1, diciamo semplicemente che Xn converge a X as n converge a in media; quando k = 2, si dice che Xn converge a X per n converge a in media quadratica. Questi sono i casi particolari più importanti.

Esercizio teorico 49. Usa la disuguaglianza di Ljapunov per mostrare che, se j < k, allora

Xn converge a X per n converge a in media k-esima implica Xn converge a X per n converge a in media j-esima.

La prossima serie di esercizi mostra che la convergenza in media è più forte della convergenza in probabilità.

Esercizio teorico 50. Usa la disuguaglianza di Markov per mostrare che

Xn converge a X per n converge a in media implica Xn converge a X per n converge a in probabilità.

Il contrario non è vero. Inoltre, la convergenza quasi certa non implica la convergenza in media k-esima e vicevera. I prossimi due esercizi riportano alcuni controesempi.

Esercizio teorico 51. Supponi che X1, X2, X3, ... sia una successione di variabili casuali indipendenti con

P(Xn = n3) = 1 / n2, P(Xn = 0) = 1 - 1 / n2 per n = 1, 2, ...

  1. Usa il primo lemma di Borel-Cantelli per mostrare che Xn converge a 0 as n converge a con probabilità 1.
  2. Prova che Xn converge a 0 as n converge a in probabilità.
  3. Prova che E(Xn) converge a per n converge a

Esercizio teorico 52. Supponi che X1, X2, X3, ... sia una successione di variabili casuali indipendenti con

P(Xn = 1) = 1 / n, P(Xn = 0) = 1 - 1 / n per n = 1, 2, ...

  1. Usa il secondo lemma di Borel-Cantelli per mostrare che P(Xn = 0 per infinitamente numerosi n) = 1.
  2. Usa il secondo lemma di Borel-Cantelli per mostrare che P(Xn = 1 per infinitamente numerosi n) = 1.
  3. Prova che P(Xn non converge per n converge a ) = 1.
  4. Prova che Xn converge a 0 per n converge a in media k-esima per ogni k >= 1.

Per tirare le somme, nella seguente tabella il segno di implicazione va da sinistra a destra (con j < k); nessuna altra implicazione vale in generale.

convergenza con probabilità 1 convergenza in probabilità convergenza in distribuzione
convergenza in media k-esima convergenza in media j-esima

Argomenti correlati

Per una trattazione affine dal punto di vista statistico, confronta il paragrafo sulla varianza campionaria nel capitolo sui campioni casuali. La varianza della somma di variabili casauali può essere capita meglio basandosi su un concetto affine noto come covarianza, che sarà trattato in dettaglio nel prossimo paragrafo.