Statistiche d'ordine

7. Statistiche d'ordine

Introduciamo in primo luogo un esperimento casuale semplice definito su un certo spazio campionario e con misura di probabilità P. Supponiamo che X sia una variabile casuale relativa all'esperimento con funzione di ripartizione F e funzione di densità f.

Generiamo n replicazioni indipendenti dell'esperimento semplice per ottenere un campione casuale di dimensione n dalla distribuzione di X:

(X₁, X₂, ..., X_n),

Ricorda che si tratta di variabili casuali indipendenti, ciascuna distribuita come X.

Sia X_(k) il valore k-esimo più piccolo di X₁, X₂, ..., X_n. Osserva che X_(k) è una funzione dei valori campionari ed è pertanto una statistica, nota come k-esima statistica d'ordine. Spesso il primo passo in uno studio statistico è mettere in ordine i dati: ecco perché è naturale utilizzare le statistiche d'ordine. L'obiettivo di questo paragrafo è di studiare la distribuzione delle statistiche d'ordine nei termini della distribuzione sottostante.

Osserva in particolare che le statistiche d'ordine estremo sono i valori minimo e massimo:

X₍₁₎ = min{X₁, X₂, ..., X_n}
X_(n) = max{X₁, X₂, ..., X_n}

1. Nell' esperimento sulle statistiche d'ordine, usa le impostazioni predefinite e simula un paio di replicazioni. Nota che:

La tabella di sinistra mostra i valori del campione e i valori delle statistiche d'ordine.
Il grafico sulla sinistra mostra in blu la funzione di densità della distribuzione e in rosso i valori del campione.
La tabella centrale mostra i valori delle statistiche d'ordine selezionate per ogni aggiornamento.
Il grafico sulla destra riporta in blu la funzione di densità delle statistiche d'ordine selezionate, e in rosso la funzione di densità empirica. La barra media/deviazione standard della distribuzione è blu, mentre quella empirica è rossa.
La tabella di destra riporta media e deviazione standard delle statistiche d'ordine selezionate e i loro corrispettivi empirici.

La distribuzione di `X`_(k)

Sia G_k la funzione di ripartizione di X_(k). Fissiamo un reale y e definiamo

N_y = #{i {1, 2, ..., n}: X_i y}.

$Esercizio teorico$ 2. Dimostrare che N_y ha distribuzione binomiale con parametri n e F(y).

$Esercizio teorico$ 3. Dimostrare che X_(k) y se e solo se N_y k.

$Esercizio teorico$ 4. Concludere, dagli esercizi 2 e 3, che per y appartenente a R,

G_k(y) = _{j
= k, ..., n} C(n, j) [F(y)]^j[1 - F(y)]^{n - j}.

$Esercizio teorico$ 5. Dimostrare in particolare che G₁(y) = 1 - [1 - F(y)]ⁿ per y appartenente a R.

$Esercizio teorico$ 6. Provare in particolare che G_n(y) = [F(y)]ⁿ per y appartenente a R.

$Esercizio teorico$ 7. Supponi ora che X abbia distribuzione continua. Prova che X_(k) ha distribuzione continua con densità

g_k(y) = C(n; k - 1, 1, n - k) [F(y)]^{k - 1}[1 - F(y)]^{n
- k}f(y)

dove C(n; k - 1, 1, n - k) è il coefficiente multinomiale. Suggerimento: Deriva rispetto a y l'espressione nell'esercizio 4.

8. Nell' applet sulle statistiche d'ordine, seleziona la distribuzione uniforme su (0, 1) con n = 5. Modifica k da 1 a 5 e osserva la forma della funzione di densità di X_(k). Con k = 4 simula 1000 replicazioni aggiornando ogni 10 e osserva la convergenza della funzione di densità empirica a quella teorica.

C'è un semplice argomento che spiega il risultato dell'esercizio 7. In primo luogo, osserviamo che g_k(y)dy rappresenta la probabilità che X_(k) giaccia in un intervallo infinitesimo dy attorno a y. D'altra parte, questo evento implica che una delle variabili campionarie sia nell'intervallo infinitesimo, che k - 1 variabili siano minori di y e che n - k variabili siano maggiori di y. Il numero di modi di disporre queste variabili è il coefficiente multinomiale

C(n; k - 1, 1, n - k).

La probabilità che le variabili scelte giacciano negli intervalli selezionati è

[F(y)]^{k - 1}[1 - F(y)]^{n
- k}f(y)dy.

$Esercizio teorico$ 9. Considera un campione casuale di dimensione n dalla distribuzione esponenziale con parametro r. Calcola la funzione di densità della k-esima statistica d'ordine X_(k). Nota in particolare che X₍₁₎ ha distribuzione esponenziale con parametro nr.

10. Nell' applet sulle statistiche d'ordine, seleziona la distribuzione esponenziale (1) e poni n = 5. Fa' variare k da 1 a 5 e osserva la forma della funzione di densità di X_(k). Con k = 3, simula 1000 replicazioni aggiornando ogni 10 e osserva la convergenza della funzione di densità empirica a quella teorica.

$Esercizio teorico$ 11. Considera un campione casuale di dimensione n dalla distribuzione uniforme su (0, 1).

Dimostra che X_(k) ha distribuzione beta con parametri k e n - k + 1.
Trova media e varianza di X_(k).

12. Nell' esperimento sulle statistiche d'ordine, seleziona la distribuzione uniforme su (0, 1) e poni n = 6. Fa' variare k da 1 a 6 e osserva la forma della funzione di densità di X_(k). Con k = 3, simula 1000 replicazioni aggiornando ogni 10 e osserva la convergenza dei momenti empirici a quelli teorici.

$Esercizio teorico$ 13. Si lanciano quattro dadi equilibrati. Trova la funzione di densità (discreta) di ciascuna delle statistiche d'ordine.

14. Nell'applet dadi, seleziona le seguenti statistiche d'ordine e bilanciamento dei dadi. Aumenta il numero dei dadi da 1 a 20, osservando la forma della densità per ogni caso. Ponendo n = 4, simula 1000 replicazioni aggiornando ogni 10 e osserva la convergenza delle frequenze relative alla funzione di densità.

Punteggio massimo con dadi equilibrati.
Punteggio minimo con dadi equilibrati.
Punteggio massimo con dado piatto (1-6).
Punteggio minimo con dado piatto (1-6).

Distribuzioni congiunte

Supponiamo di nuovo che X abbia distribuzione continua.

$Esercizio teorico$ 15. Poniamo j < k. Prova per via induttiva che la densità congiunta di (X_(j), X_(k)) è

g(y, z) = C(n; j - 1, 1, k - j - 1, 1, n - k) × [F(y)]^{j - 1} f(y) [F(z) - F(y)]^{k - j - 1} f(z) [1 - F(z)]^{n - k} per y < z.

Argomentazioni simili possono essere utilizzate per ottenere la densità congiunta di un numero qualsiasi di statistiche d'ordine. Ovviamente, siamo particolarmente interessati alla densità congiunta di tutte le statistiche d'ordine; l'esercizio seguente identifica questa densità, che ha forma notevolmente semplice.

$Esercizio teorico$ 16. Prova che (X₍₁₎, X₍₂₎, ..., X_(n)) ha densità congiunta g data da

g(y₁, y₂, ..., y_n) = n! f(y₁)f(y₂) ··· f(y_n) per y₁ < y₂ < ··· < y_n.

Suggerimento: Per ogni permutazione i = (i₁, i₂, ..., i_n) di (1, 2, ..., n), poni

S_i = {x appartenente a Rⁿ: x_i₁ < x_i₂ < ··· < x_{i_n}}.

Su S_i la funzione da (x₁, x₂, ..., x_n) a (x_i₁, x_i₂, ···, x_{i_n}) è biunivoca, ha derivate prime parziali continue e Jacobiano 1. Gli insiemi S_i dove i copre le n! permutazioni di (1, 2, ..., n) sono disgiunte e la probabilità che (X₁, X₂, ..., X_n) non appartenga a uno di questi insiemi è 0. Usa la formula di cambiamento di variabile multivariata.

Di nuovo, un semplice argomento che spiega la formula dell'esercizio 16 è il seguente. Per ogni y appartenente a Rⁿ cony₁ < y₂ < ··· < y_n, esistono n! permutazioni delle coordinate di y. La densità di (X₁, X₂, ..., X_n) in ciascuno di questi punti è

f(y₁)f(y₂) ··· f(y_n)

Per cui la densità di (X₍₁₎, X₍₂₎, ..., X_(n)) a y è n! volte questo prodotto.

$Esercizio teorico$ 17. Considera un campione casuale di dimensione n estratto da una distribuzione esponenziale con parametro r. Calcola la funzione di densità congiunta delle statistiche d'ordine (X₍₁₎, X₍₂₎, ..., X_(n)).

$Esercizio teorico$ 18. Considera un campione casuale di dimensione n dalla distribuzione uniforme su (0, 1). Calcola la funzione di densità congiunta delle statistiche d'ordine (X₍₁₎, X₍₂₎, ..., X_(n)).

$Esercizio teorico$ 19. Si lanciano 4 dadi bilanciati. Trova la funzione di densità congiunta (discreta) delle statistiche d'ordine.

Scarto campionario

Lo scarto campionario è la variabile casuale

R = X_(n) - X₍₁₎.

Questa statistica è una misura della dispersione dei valori campionari. Osserva che la distribuzione dello scarto campionario può essere ottenuta dalla distribuzione congiunta di (X₍₁₎, X_(n)) riportata poc'anzi.

$Esercizio teorico$ 20. Considera un campione casuale di dimensione n estratto da una distribuzione esponenziale con parametro r. Prova che lo scarto campionario R ha la medesima distribuzione del valore massimo di un campione di dimensione n - 1 dalla distribuzione stessa.

$Esercizio teorico$ 21. Considera un campione casuale di dimensione n dalla distribuzione uniforme su (0, 1).

Dimostra che R ha distribuzione beta con parametri n - 1 e 2.
Trova media e varianza di R.

$Esercizio teorico$ 22. Si lanciano 4 dadi bilanciati. Trova la funzione di densità (discreta) dello scarto campionario.

Mediana

Se n è dispari, la mediana del campione è il valore centrale delle osservazioni ordinate, ovvero

X_(k) dove k = (n + 1)/2.

Se n è pari, ci sono due osservazioni centrali. Pertanto, l'intervallo mediano è

[X_(k), X_(k+1)] con k = n/2.

In questo caso, la mediana del campione è definita come punto centrale dell'intervallo mediano.

[X_(k) + X_(k+1)] / 2.

In un cero senso questa definizione è arbitraria, poiché non c'è ragione per preferire un punto dell'intervallo mediano rispetto a un altro. Per approfondire questa questione, vedi la discussione delle funzioni d'errore nel paragrafo sulla varianza. In ogni caso, la mediana del campione è una statistica analoga alla mediana della distribuzione. Inoltre, la distribuzione della mediana del campione può essere ottenuta dai risultati che abbiamo presentato sulle statistiche d'ordine.

Quantili

Possiamo estendere il concetto di mediana campionaria esposto poc'anzi agli altri quantili. Supponi che p sia in (0, 1). Se np non è intero, definiamo il quantile del campione di ordine p come la statistica d'ordine

X_(k) dove k = ceil(np)

(ricorda ceil(np) è il più piccolo intero maggiore o uguale a np). Se np è un intero k, definiamo allora quantile del campione di ordine p come media delle statistiche d'ordine

[X_(k) + X_(k+1)] / 2.

Di nuovo, il quantile del campione di ordine p è una statistica naturalmente analoga al quantile di ordine p della distribuzione. Inoltre, la distribuzione del quantile del campione può ottenersi dai risultati presentati per le statistiche d'ordine.

Il quantile del campione di ordine 1/4 è detto primo quartile del campione ed è spesso indicato con Q₁. Il quantile del campione di ordine 3/4 è detto terzo quartile del campione e si indica con Q₃. Osserva che la mediano è il quantile di ordine 1/2, o il secondo quartile, ed è pertanto a volte indicata con Q₂. Lo scarto interquartile è definito come

IQR = Q₃ - Q₁.

Lo scarto interquartile è una statistica che misura la dispersione della distribuzione attorno alla mediana, ma ovviamente è un numero meno informativo rispetto all'intervallo [Q₁, Q₃].

Analisi esplorativa dei dati

Le cinque statistiche

X₍₁₎, Q₁, Q₂, Q₃, X_(n)

sono spesso dette riassunto a cinque numeri (five-number summary). Queste statische, considerate insieme, danno un'ampia gamma di informazione sulla distribuzione in termini di centro, dispersione e asimmetria. Di solito si rappresentano questi cinque numeri in un boxplot, che consiste in una linea che collega minimo e massimo con un rettangolo tra Q₁ e Q₃, e segni au minimo, mediana e massimo.

23. Nell' istogramma interattivo, seleziona "boxplot". Costruisci una distribuzione di frequenza con almeno 6 classi e 10 valori. Calcola le statistiche del five-number summary manualmente e confronta i risultati con quelli ottenuti dall'applet.

24. Nell'applet istogramma interattivo, seleziona "boxplot". Poni l'ampiezza di classe a 0.1 e costruisci una distribuzione con almeno 30 valori per ognuna delle categorie indicate sotto. Aumenta quindi l'ampiezza di classe e osserva la forma del boxplot e le posizioni relative delle statistiche nel five-number summary:

Distribuzione uniforme
Distribuzione simmetrica unimodale
Distribuzione unimodale asimmetrica a destra
Distribuzione unimodale asimmetrica a sinistra
Distribuzione simmetrica bimodale
Distribuzione a forma di u

25. Nell'applet istogramma interattivo, seleziona "boxplot". Genera la distribuzione come segue e osserva gli effetti sul boxplot:

Aggiungi un punto minore di X₍₁₎.
Aggiungi un punto tra X₍₁₎ e Q₁.
Aggiungi un punto tra Q₁ e Q₂.
Aggiungi un punto tra Q₂ e Q₃.
Aggiungi un punto tra Q₃ e X_(n).
Aggiungi un punto maggiore di X_(n).

Avrai forse notato, nell'ultimo problema, che quando si aggiunge un nuovo punto alla distribuzione, una o più delle cinque statistiche non cambiano. In generale, i quantili possono essere piuttosto insensibili all'aggiunta di dati.

26. Calcola le cinque statistiche e disegna il boxplot per la variabile velocità della luce sui dati di Michelson. Confronta la mediana con il "vero valore" della velocità della luce.

27. Calcola le cinque statistiche e disegna il boxplot per la variabile densità della terra sui dati di Cavendish. Confronta la mediana con il "valore vero" della densità della terra.

28. Calcola le cinque statistiche e disegna il boxplot per la variabile peso sui dati M&M.

29. Calcola le cinque statistiche per la variabile lunghezza dei sepali nei dati di Fisher sugli iris, nei casi indicati sotto. Disegna i boxplot su assi paralleli in modo da poterli confrontare.

Tutte le varietà
Solo la Setosa
Solo la Verginica
Solo la Versicolor