Varianza e momenti superiori

2. Varianza e momenti superiori

Definizione

Al solito, iniziamo con l'introdurre un esperimento casuale definito su un certo sapazio campionario e con misura di probabilità P. Supponiamo che X sia una variabile casuale, relativa all'esperimento, a valori in un sottinsieme S di R. Ricordiamo che il valore atteso (o media) di X indica il centro della distribuzione di X. La varianza di X è una misura della dispersione della distribuzione attorno al centro ed è definita come

var(X) = E{[X - E(X)]²}

La varianza è quindi il secondo momento centrale di X.

$Esercizio teorico$ 1. Supponi che X abbia distribuzione discreta con funzione di densità f. Usa il teorema del cambiamento di variabile per mostrare che

var(X) = _{x
in S} [x - E(X)]² f(x).

$Esercizio teorico$ 2. Supponi che X abbia distribuzione continua con funzione di densità f. Usa il teorema del cambiamento di variabile per mostrare che

var(X) = _S [x - E(X)]² f(x)dx.

La deviazione standard di X è la radice quadrata della varianza:

sd(X) = [var(X)]^1/2.

Misura anch'essa la dispersione attorno alla media, ma è espressa nella stessa unità di misura di X.

Proprietà

Gli esercizi seguenti riportano alcune proprietà fondamentali della varianza, che si basano sulle proprietà del valore atteso:

$Esercizio teorico$ 3. Dimostra che var(X) = E(X²) - [E(X)]².

$Esercizio teorico$ 4. Dimostra che var(X) 0

$Esercizio teorico$ 5. Dimostra che var(X) = 0 se e solo se P(X = c) = 1 per una costante c.

$Esercizio teorico$ 6. Dimostra che se a e b sono costanti allora var(aX + b) = a²var(X)

$Esercizio teorico$ 7. Let Z = [X - E(X)] / sd(X). Dimostra che Z ha media 0 e varianza 1.

La variabile casuale Z dell'esercizio 7 è detta a volte standard score associato a X. Poiché X e la sua media e deviazione standard sono espressi nella stessa unità di misura, lo standard score Z è un numero puro. Misura la distanza tra E(X) e X in termini di deviazioni standard.

D'altra parte, quando E(X) è diverso da zero, il rapporto tra deviazione standard e media è detto coefficiente di variazione:

sd(X) / E(X)

Osserva che anche questa quantità è un numero puro, ed è a volte utilizzata per confrontare la variabilità di variabili casuali con medie diverse.

Esempi e casi particolari

$Esercizio teorico$ 8. Supponi che I sia una variabile indicatore con P(I = 1) = p.

Mostra che var(I) = p(1 - p).
Disegna il grafico di var(I) in funzione di p.
Trova il valore di p che massimizza var(I).

$Esercizio teorico$ 9. Il punteggio di un dado equilibrato è distribuito uniformemente su {1, 2, 3, 4, 5, 6}. Trova media, varianza e deviazione standard.

10. Nell'esperimento dei dadi, seleziona un dado equilibrato. Simula 1000 replicazioni, aggiornando ogni 10, e osserva la convergenza della media e della deviazione standard empiriche ai loro valori teorici.

$Esercizio teorico$ 11. Su un dado piatto uno-sei, le facce 1 e 6 hanno probabilità 1/4 e le facce 2, 3, 4 e 5 hanno probabilità 1/8. Trova media, varianza e deviazione standard.

12. Nell'esperimento dei dadi, seleziona un dado piatto uno-sei. Simula 1000 replicazioni, aggiornando ogni 10, e osserva la convergenza della media e della deviazione standard empiriche ai loro valori teorici.

$Esercizio teorico$ 13. Supponi che X sia distribuita uniformemente su {1, 2, ..., n}. Prova che

var(X) = (n² - 1) / 12.

$Esercizio teorico$ 14. Supponi che Y abbia funzione di densità f(n) = p(1 - p)ⁿ^{- 1} per n = 1, 2, ..., dove 0 < p < 1 è un parametro. Si ha allora la ditribuzione geometrica con parametro p. Prova che

var(Y) = (1 - p) / p².

$Esercizio teorico$ 15. Supponi che N abbia funzione di densità f(n) = exp(-t)tⁿ / n! for n = 0, 1, ..., dove t > 0 è un parametro. Si ha allora la distribuzione di Poisson con parametro t. Prova che

var(N) = t.

$Esercizio teorico$ 16. Supponi che X sia distribuita uniformemente sull'intervallo (a, b) con a < b. Prova che

var(X) = (b - a)² / 12.

Nota in particolare che la varianza dipende solo dalla lunghezza dell'intervallo, il che sembra intuitivamente ragionevole.

$Esercizio teorico$ 17. Supponi che X abbia funzione di densità f(x) = r exp(-rx) per x > 0. Si ha allora una distribuzione esponenziale con parametro di velocità r > 0. Prova che

sd(X) = 1 / r.

18. Nell'esperimento gamma, poni k = 1 per avere una distribuzione esponenziale. Modifica r con la barra a scorrimento e osserva posizione e dimensione della barra media-deviazione standard. Con r = 2, simula 1000 replicazioni, aggiornando ogni 10. Osserva la convergenza della media e della deviazione standard empiriche ai loro valori teorici.

$Esercizio teorico$ 19. Supponi che X abbia densità f(x) = a / x^a^{+ 1} for x > 1, dove a > 0 è un parametro. Si ha allora la distribuzione di Pareto con parametro di forma a. Prova che

var(X) = se 1 < a 2
var(X) = a / [(a - 1)²(a - 2)] se a > 2.

$Esercizio teorico$ 20. Supponi che Z abbia densità f(z) = exp(-z² / 2) / (2)^1/2 per z appartenente a R. Si ha allora una distribuzione normale standardizzata. Mostra che

var(Z) = 1.

Suggerimento: Integra per parti in E(Z²).

21. Nell'applet variabile casuale, seleziona la distribuzione normale (i parametri preimpostati individuano la normale standardizzata). Simula 1000 replicazioni, aggiornando ogni 10, e osserva la convergenza della media e della deviazione standard empiriche ai loro valori teorici.

$Esercizio teorico$ 22. Supponi che X sia una variabile casuale con E(X) = 5, var(X) = 4. Trova

var(3X - 2)
E(X²)

$Esercizio teorico$ 23. Supponi che X₁ e X₂ siano variabili casuali indipendenti con E(X_i) = µ_i, var(X) = d_i² for i = 1, 2. Mostra che

var(X₁X₂) = (d₁²+ µ₁²)(d₂²+ µ₂²) - µ₁²µ₂².

$Esercizio teorico$ 24. Marilyn Vos Savant ha un quoziente di intelligenza di 228. Assumendo che la distribuzione dei quozienti di intelligenza abbia media 100 e devizione standard 15, trova lo standard score di Marilyn.

La disuguaglianza di Chebyshev

La disuguaglianza di Chebyshev (che prende nome da Pafnuty Chebyshev) individua un limite superiore per la probabilità che una variabile casuale sia più distante di un certo valore dalla sua media.

$Esercizio teorico$ 25. Usa la disuguaglianza di Markov per dimostrare la disuguaglianza di Chebyshev: per t > 0,

P[|X - E(X)| t] var(X) / t².

$Esercizio teorico$ 26. Ricava la seguente versione alternativa della disuguaglianza di Chebyshev: per k > 0,

P[|X - E(X)| k sd(X)] 1 / k².

$Esercizio teorico$ 27. Supponi che Y abbia distribuzione geometrica con parametro p = 3/4. Calcola il valore vero e il limte superiore di Chebyshev per la probabilità che Y sia distante almeno 2 deviazioni standard dalla media.

$Esercizio teorico$ 28. Supponi che X abbia distribuzione esponenziale con parametro di velocità r > 0. Calcola il valore vero e il limte superiore di Chebyshev per la probabilità che X sia distante almeno deviazioni standard dalla media.

Asimmetria e curtosi

Ricordiamo di nuovo che la varianza di X è il momento secondo di X centrato sulla media e misura la dispersione della ditribuzione di X attorno alla media. I momenti centrali terzo e quarto di X misurano anch'essi caratteristiche interessanti della distribuzione. Il momento terzo misura la skewness, ovvero l'asimmetria, mentre il momento quarto misura la curtosi, ovvero il grado di "appuntimento" della distribuzione. Le misure numeriche di tali caratteristiche vengono standardizzate, per eliminare le unità di misura, dividendo per una potenza appropriata della deviazione standard.

Sia µ = E(X) e d = sd(X). L'asimmetria di X è definita come

skew(X) = E[(X - µ )³] / d³.

la curtosi di X è invece

kurt(X) = E[(X - µ )⁴] / d⁴.

$Esercizio teorico$ 29. Supponi che X abbia densità f, simmetrica rispetto a µ. Prova che skew(X) = 0.

$Esercizio teorico$ 30. Prova che

skew(X) = [E(X³) - 3µE(X) + 2µ³] / d³.

$Esercizio teorico$ 31. Prova che

kurt(X) = [E(X⁴) - 4µE(X) + 6µ²E(X²) - 3µ⁴] / d⁴.

$Esercizio teorico$ 32. Disegna il grafico delle seguenti funzioni di densità e calcola skewness e curtosi. (Si tratta di membri della famiglia beta).

f(x) = 6x(1 - x), 0 < x < 1.
f(x) = 12x²(1 - x), 0 < x < 1.
f(x) = 12x(1 - x)², 0 < x < 1.

Norma

La varianza e i momenti di ordine superiore sono collegati ai concetti di norma e distanza nella teoria degli spazi vettoriali. Tale collegamento può aiutare a connettere e illustrare alcuni dei concetti presentati. Sia X una variabile casuale a valori reali. Per k 1, si definisce la k-norma come

||X||_k = [E(|X|^k)]^1/k.

Quindi ||X||_k misura in un certo senso la dimensione di X. Per un dato spazio di probabilità (cioè un dato esperimento casuale), l'insieme delle variabili casuali con momento k-esimo finito forma uno spazio vettoriale (se identifichiamo due varaibili casuali che coincidono con probabilità 1). Gli esercizi seguenti mostrano che la k-norma è di fatto una norma su questo spazio vettoriale.

$Esercizio teorico$ 33. Mostra che ||X||_k 0 per ogni X.

$Esercizio teorico$ 34. Mostra che ||X||_k= 0 se e solo se P(X = 0) = 1.

$Esercizio teorico$ 35. Mostra che ||cX||_k= |c| ||X||_k per ogni costante c.

L'esercizio seguente ricava la disuguaglianza di Minkowski, che prende nome da Hermann Minkowski. È detta anche disuguaglianza triangolare.

$Esercizio teorico$ 36. Prova che ||X + Y||_k ||X||_k+ ||Y||_k per ogni X e Y.

Prova che g(x, y) = (x^1/k + y^1/k)^k è concava su {(x, y) in R²: x 0, y 0}.
Usa (a) e la disuguaglianza di Jensen per concludere che, se U e V sono varaibili casuali non negative, allora E[(U^1/k + V^1/k)^k] {[E(U)]^1/k + [E(V)]^1/k}^k.
In (b) poni U = |X|^k e V = |Y|^k ed effettua qualche manovra algebrica.

L'esercizio seguente identifica la disuguaglianza di Lyapunov, che prende nome da Aleksandr Lyapunov. Questa disuguaglianza prova che la k-norma di una variabile casuale è crescente in k.

$Esercizio teorico$ 37. Prova che, se j k, allora ||X||_j ||X||_k.

Mostra che g(x) = x^k/j è convessa su {x: x 0}.
Usa (a) e la disuguaglianza di Jensen per concludere che, se U è una variabile casuale non negativa, allora [E(U)]^k/j E(U^k/j).
In (b), poni U = |X|^j ed effettua qualche manovra algebrica.

La disuguaglianza di Lyapanov mostra che, se X ha momento k-esimo finito e j < k, allora X ha momento j-esimo finito.

$Esercizio teorico$ 38. Supponi che X sia distribuita uniformemente sull'intervallo (0, 1).

Trova ||X||_k.
Disegna ||X||_k in funzione di k.
Trova il limite ||X||_k per k .

$Esercizio teorico$ 39. Supponi che X abbia densità f(x) = a / x^a^{+ 1} per x > 1, dove a > 0 è un parametro. Si ha quindi un a distribuzione di Pareto con parametro di forma a.

Trova ||X||_k.
Disegna ||X||_k in funzione k < a.
Trova il limite ||X||_k per k a-.

$Esercizio teorico$ 40. Supponi che (X, Y) abbia densità f(x, y) = x + y per 0 < x < 1, 0 < y < 1. Verifica la disuguaglianza di Minkowski.

Distanza

La k-norma, come ogni altra norma, può essere utilizzata per misurare la distanza; basta calcolare la norma della differenza tra le unità. Definiamo pertanto la k-distanza (o k-metrica) tra due variabili casuali a valori reali X e Y come

d_k(X, Y) = ||Y - X||_k = [E(|Y - X|^k)]^{1
/ k}.

Le proprietà presentate nei prossimi esercizi sono analoghe a quelle degli esercizi 33-36 (e quindi non serve molta fatica in più). Tali proprietà mostrano che la k-distanza è di fatto una misura di distanza.

$Esercizio teorico$ 41. Mostra che d_k(X, Y) 0 per ogni X, Y.

$Esercizio teorico$ 42. Mostra che d_k(X, Y) = 0 se e solo se P(Y = X) = 1.

$Esercizio teorico$ 43. Mostra che d_k(X, Y) d_k(X, Z) + d_k(Z, Y) per ogni X, Y, Z (si parla anche di disuguaglianza triangolare).

Pertanto, la deviazione standard è semplicemente la 2-distanza tra X e la sua media:

sd(X) = d₂[X, E(X)] = {E[(X - E(X)]²}^1/2.

e la varianza è il quadrato di tale quantità. Più in generale, il momento k-esimo di X centrato su a è semplicemente la k-esima potenza della k-distanza tra X e a. La 2-distanza è particolaremente importante per ragioni che appariranno più chiare più avanti e nel prossimo paragrafo. Questa distanza è detta inoltre root mean square distance.

Centro e dispersione da un'altra angolazione

Le misure di centro e dispersione possono essere interpretate in maniera interessante nel contesto della misura della distanza. Per una variabile casuale X, in primo luogo si tenta di individuare le costanti t più vicine a X, come misurate dalla distanza data; ogni t è una misura di centralità relativa alla distanza. La minima distanza corrispondente è la misura di dispersione.

Applichiamo questa procedura alla 2-distanza. Definiamo quindi la funzione di errore root mean square come

d₂(X, t) = ||X - t||₂ = {E[(X - t)²]}^1/2.

$Esercizio teorico$ 44. Prova che d₂(X, t) è minima per t = E(X) e che il valore minimo è sd(X). Suggerimento: il valore minimo si presenta nello stesso punto del valore minimo di E[(X - t)²]. Espandi e prendi i valori attesi termine a termine. L'espressione risultante è una funzione quadratica di t.

45. Nell'istogramma interattivo, costruisci una distribuzione discreta seguendo le indicazioni sottindicate. Osserva la posizione e la dimensione della barra media ± deviazione standard e la forma del grafico dell'errore quadratico medio.

Distribuzione uniforme
Distribuzione simmetrica unimodale
Distribuzione unimodale asimmetrica a destra
Distribuzione unimodale asimmetrica a sinistra
Distribuzione simmetrica bimodale
Distribuzione a forma di u

Applichiamo ora questa procedura alla 1-distanza. Definiamo pertanto la funzione di errore medio assoluto come

d₁(X, t) = ||X - t||₁ = E[|X - t|].

$Esercizio teorico$ 46. Prova che d₁(X, t) è minima quando t è una mediana di X.

L'ultimo esercizio mostra che l'errore medio assoluto ha un grosso limite come misura di errore poiché non è detto che esista un unico valore di t. Al contario, per molte distribuzioni discrete, esiste un intervallo mediano. Quindi, in termini dell'errore medio assoluto, non c'è ragione per scegliere un valore dell'intervallo piuttosto che un altro.

47. Costruisci le distribuzioni del tipo indicato sotto. In ciascun caso, nota la posizione e la dimensione del boxplot e la forma del grafico dell'errore medio assoluto.

Distribuzione uniforme
Distribuzione simmetrica unimodale
Distribuzione unimodale asimmetrica a destra
Distribuzione unimodale asimmetrica a sinistra
Distribuzione simmetrica bimodale
Distribuzione a forma di u

$Esercizio teorico$ 48. Sia I una variabile indicatore con P(I = 1) = p. Disegna il grafico di E[|I - t|] in funzione di t in ciascuno dei seguenti casi. In ogni caso, trova il valore minimo dell'errore medio assoluto e i valori di t in cui si ha il minimo.

p < 1/2
p = 1/2
p > 1/2

Convergenza

Quando si ha una misura di distanza, si ha anche automaticamente un criterio di convergenza. Siano X_n, n = 1, 2, ..., e X variabili casuali a valori reali. Si dice che X_n X per n in media k-esima se

d_k(X_n, X) 0 per n , equivalentemente E(|X_n- X|^k) 0 per n .

Quando k = 1, diciamo semplicemente che X_n X as n in media; quando k = 2, si dice che X_n X per n in media quadratica. Questi sono i casi particolari più importanti.

$Esercizio teorico$ 49. Usa la disuguaglianza di Ljapunov per mostrare che, se j < k, allora

X_n X per n in media k-esima implica X_n X per n in media j-esima.

La prossima serie di esercizi mostra che la convergenza in media è più forte della convergenza in probabilità.

$Esercizio teorico$ 50. Usa la disuguaglianza di Markov per mostrare che

X_n X per n in media implica X_n X per n in probabilità.

Il contrario non è vero. Inoltre, la convergenza quasi certa non implica la convergenza in media k-esima e vicevera. I prossimi due esercizi riportano alcuni controesempi.

$Esercizio teorico$ 51. Supponi che X₁, X₂, X₃, ... sia una successione di variabili casuali indipendenti con

P(X_n = n³) = 1 / n², P(X_n = 0) = 1 - 1 / n² per n = 1, 2, ...

Usa il primo lemma di Borel-Cantelli per mostrare che X_n 0 as n con probabilità 1.
Prova che X_n 0 as n in probabilità.
Prova che E(X_n) per n

$Esercizio teorico$ 52. Supponi che X₁, X₂, X₃, ... sia una successione di variabili casuali indipendenti con

P(X_n = 1) = 1 / n, P(X_n = 0) = 1 - 1 / n per n = 1, 2, ...

Usa il secondo lemma di Borel-Cantelli per mostrare che P(X_n = 0 per infinitamente numerosi n) = 1.
Usa il secondo lemma di Borel-Cantelli per mostrare che P(X_n = 1 per infinitamente numerosi n) = 1.
Prova che P(X_n non converge per n ) = 1.
Prova che X_n 0 per n in media k-esima per ogni k 1.

Per tirare le somme, nella seguente tabella il segno di implicazione va da sinistra a destra (con j < k); nessuna altra implicazione vale in generale.

convergenza con probabilità 1		convergenza in probabilità	convergenza in distribuzione
convergenza in media `k`-esima	convergenza in media `j`-esima	convergenza in probabilità	convergenza in distribuzione

Argomenti correlati

Per una trattazione affine dal punto di vista statistico, confronta il paragrafo sulla varianza campionaria nel capitolo sui campioni casuali. La varianza della somma di variabili casauali può essere capita meglio basandosi su un concetto affine noto come covarianza, che sarà trattato in dettaglio nel prossimo paragrafo.