Laboratorio virtuale > Campioni casuali > 1 2 3 4 5 6 [7] 8 9

7. Statistiche d'ordine


Introduciamo in primo luogo un esperimento casuale semplice definito su un certo spazio campionario e con misura di probabilità P. Supponiamo che X sia una variabile casuale relativa all'esperimento con funzione di ripartizione F e funzione di densità f.

Generiamo n replicazioni indipendenti dell'esperimento semplice per ottenere un campione casuale di dimensione n dalla distribuzione di X:

(X1, X2, ..., Xn),

Ricorda che si tratta di variabili casuali indipendenti, ciascuna distribuita come X.

Sia X(k) il valore k-esimo più piccolo di X1, X2, ..., Xn. Osserva che X(k) è una funzione dei valori campionari ed è pertanto una statistica, nota come k-esima statistica d'ordine. Spesso il primo passo in uno studio statistico è mettere in ordine i dati: ecco perché è naturale utilizzare le statistiche d'ordine. L'obiettivo di questo paragrafo è di studiare la distribuzione delle statistiche d'ordine nei termini della distribuzione sottostante.

Osserva in particolare che le statistiche d'ordine estremo sono i valori minimo e massimo:

Simulazione 1. Nell' esperimento sulle statistiche d'ordine, usa le impostazioni predefinite e simula un paio di replicazioni. Nota che:

  1. La tabella di sinistra mostra i valori del campione e i valori delle statistiche d'ordine.
  2. Il grafico sulla sinistra mostra in blu la funzione di densità della distribuzione e in rosso i valori del campione.
  3. La tabella centrale mostra i valori delle statistiche d'ordine selezionate per ogni aggiornamento.
  4. Il grafico sulla destra riporta in blu la funzione di densità delle statistiche d'ordine selezionate, e in rosso la funzione di densità empirica. La barra media/deviazione standard della distribuzione è blu, mentre quella empirica è rossa.
  5. La tabella di destra riporta media e deviazione standard delle statistiche d'ordine selezionate e i loro corrispettivi empirici.

La distribuzione di X(k)

Sia Gk la funzione di ripartizione di X(k). Fissiamo un reale y e definiamo

Ny = #{i in{1, 2, ..., n}: Xi <= y}.

Esercizio teorico 2. Dimostrare che Ny ha distribuzione binomiale con parametri n e F(y).

Esercizio teorico 3. Dimostrare che X(k) <= y se e solo se Ny >= k.

Esercizio teorico 4. Concludere, dagli esercizi 2 e 3, che per y appartenente a R,

Gk(y) = sommatoriaj = k, ..., n C(n, j) [F(y)]j [1 - F(y)]n - j.

Esercizio teorico 5. Dimostrare in particolare che G1(y) = 1 - [1 - F(y)]n per y appartenente a R.

Esercizio teorico 6. Provare in particolare che Gn(y) = [F(y)]n per y appartenente a R.

Esercizio teorico 7. Supponi ora che X abbia distribuzione continua. Prova che X(k) ha distribuzione continua con densità

gk(y) = C(n; k - 1, 1, n - k) [F(y)]k - 1[1 - F(y)]n - kf(y)

dove C(n; k - 1, 1, n - k) è il coefficiente multinomiale. Suggerimento: Deriva rispetto a y l'espressione nell'esercizio 4.

Simulazione 8. Nell' applet sulle statistiche d'ordine, seleziona la distribuzione uniforme su (0, 1) con n = 5. Modifica k da 1 a 5 e osserva la forma della funzione di densità di X(k). Con k = 4 simula 1000 replicazioni aggiornando ogni 10 e osserva la convergenza della funzione di densità empirica a quella teorica.

C'è un semplice argomento che spiega il risultato dell'esercizio 7. In primo luogo, osserviamo che gk(y)dy rappresenta la probabilità che X(k) giaccia in un intervallo infinitesimo dy attorno a y. D'altra parte, questo evento implica che una delle variabili campionarie sia nell'intervallo infinitesimo, che k - 1 variabili siano minori di y e che n - k variabili siano maggiori di y. Il numero di modi di disporre queste variabili è il coefficiente multinomiale

C(n; k - 1, 1, n - k).

La probabilità che le variabili scelte giacciano negli intervalli selezionati è

[F(y)]k - 1[1 - F(y)]n - kf(y)dy.

Esercizio teorico 9. Considera un campione casuale di dimensione n dalla distribuzione esponenziale con parametro r. Calcola la funzione di densità della k-esima statistica d'ordine X(k). Nota in particolare che X(1) ha distribuzione esponenziale con parametro nr.

Simulazione 10. Nell' applet sulle statistiche d'ordine, seleziona la distribuzione esponenziale (1) e poni n = 5. Fa' variare k da 1 a 5 e osserva la forma della funzione di densità di X(k). Con k = 3, simula 1000 replicazioni aggiornando ogni 10 e osserva la convergenza della funzione di densità empirica a quella teorica.

Esercizio teorico 11. Considera un campione casuale di dimensione n dalla distribuzione uniforme su (0, 1).

  1. Dimostra che X(k) ha distribuzione beta con parametri k e n - k + 1.
  2. Trova media e varianza di X(k).

Simulazione 12. Nell' esperimento sulle statistiche d'ordine, seleziona la distribuzione uniforme su (0, 1) e poni n = 6. Fa' variare k da 1 a 6 e osserva la forma della funzione di densità di X(k). Con k = 3, simula 1000 replicazioni aggiornando ogni 10 e osserva la convergenza dei momenti empirici a quelli teorici.

Esercizio teorico 13. Si lanciano quattro dadi equilibrati. Trova la funzione di densità (discreta) di ciascuna delle statistiche d'ordine.

Simulazione 14. Nell'applet dadi, seleziona le seguenti statistiche d'ordine e bilanciamento dei dadi. Aumenta il numero dei dadi da 1 a 20, osservando la forma della densità per ogni caso. Ponendo n = 4, simula 1000 replicazioni aggiornando ogni 10 e osserva la convergenza delle frequenze relative alla funzione di densità.

  1. Punteggio massimo con dadi equilibrati.
  2. Punteggio minimo con dadi equilibrati.
  3. Punteggio massimo con dado piatto (1-6).
  4. Punteggio minimo con dado piatto (1-6).

Distribuzioni congiunte

Supponiamo di nuovo che X abbia distribuzione continua.

Esercizio teorico 15. Poniamo j < k. Prova per via induttiva che la densità congiunta di (X(j), X(k)) è

g(y, z) = C(n; j - 1, 1, k - j - 1, 1, n - k) × [F(y)]j - 1 f(y) [F(z) - F(y)]k - j - 1 f(z) [1 - F(z)]n - k per y < z.

Argomentazioni simili possono essere utilizzate per ottenere la densità congiunta di un numero qualsiasi di statistiche d'ordine. Ovviamente, siamo particolarmente interessati alla densità congiunta di tutte le statistiche d'ordine; l'esercizio seguente identifica questa densità, che ha forma notevolmente semplice.

Esercizio teorico 16. Prova che (X(1), X(2), ..., X(n)) ha densità congiunta g data da

g(y1, y2, ..., yn) = n! f(y1)f(y2) ··· f(yn) per y1 < y2 < ··· < yn.

Suggerimento: Per ogni permutazione i = (i1, i2, ..., in) di (1, 2, ..., n), poni

Si = {x appartenente a Rn: xi1 < xi2 < ··· < xin}.

Su Si la funzione da (x1, x2, ..., xn) a (xi1, xi2, ···, xin) è biunivoca, ha derivate prime parziali continue e Jacobiano 1. Gli insiemi Si dove i copre le n! permutazioni di (1, 2, ..., n) sono disgiunte e la probabilità che (X1, X2, ..., Xn) non appartenga a uno di questi insiemi è 0. Usa la formula di cambiamento di variabile multivariata.

Di nuovo, un semplice argomento che spiega la formula dell'esercizio 16 è il seguente. Per ogni y appartenente a Rn cony1 < y2 < ··· < yn, esistono n! permutazioni delle coordinate di y. La densità di (X1, X2, ..., Xn) in ciascuno di questi punti è

f(y1)f(y2) ··· f(yn)

Per cui la densità di (X(1), X(2), ..., X(n)) a y è n! volte questo prodotto.

Esercizio teorico 17. Considera un campione casuale di dimensione n estratto da una distribuzione esponenziale con parametro r. Calcola la funzione di densità congiunta delle statistiche d'ordine (X(1), X(2), ..., X(n)).

Esercizio teorico 18. Considera un campione casuale di dimensione n dalla distribuzione uniforme su (0, 1). Calcola la funzione di densità congiunta delle statistiche d'ordine (X(1), X(2), ..., X(n)).

Esercizio teorico 19. Si lanciano 4 dadi bilanciati. Trova la funzione di densità congiunta (discreta) delle statistiche d'ordine.

Scarto campionario

Lo scarto campionario è la variabile casuale

R = X(n) - X(1).

Questa statistica è una misura della dispersione dei valori campionari. Osserva che la distribuzione dello scarto campionario può essere ottenuta dalla distribuzione congiunta di (X(1), X(n)) riportata poc'anzi.

Esercizio teorico 20. Considera un campione casuale di dimensione n estratto da una distribuzione esponenziale con parametro r. Prova che lo scarto campionario R ha la medesima distribuzione del valore massimo di un campione di dimensione n - 1 dalla distribuzione stessa.

Esercizio teorico 21. Considera un campione casuale di dimensione n dalla distribuzione uniforme su (0, 1).

  1. Dimostra che R ha distribuzione beta con parametri n - 1 e 2.
  2. Trova media e varianza di R.

Esercizio teorico 22. Si lanciano 4 dadi bilanciati. Trova la funzione di densità (discreta) dello scarto campionario.

Mediana

Se n è dispari, la mediana del campione è il valore centrale delle osservazioni ordinate, ovvero

X(k) dove k = (n + 1)/2.

Se n è pari, ci sono due osservazioni centrali. Pertanto, l'intervallo mediano è

[X(k), X(k+1)] con k = n/2.

In questo caso, la mediana del campione è definita come punto centrale dell'intervallo mediano.

[X(k) + X(k+1)] / 2.

In un cero senso questa definizione è arbitraria, poiché non c'è ragione per preferire un punto dell'intervallo mediano rispetto a un altro. Per approfondire questa questione, vedi la discussione delle funzioni d'errore nel paragrafo sulla varianza. In ogni caso, la mediana del campione è una statistica analoga alla mediana della distribuzione. Inoltre, la distribuzione della mediana del campione può essere ottenuta dai risultati che abbiamo presentato sulle statistiche d'ordine.

Quantili

Possiamo estendere il concetto di mediana campionaria esposto poc'anzi agli altri quantili. Supponi che p sia in (0, 1). Se np non è intero, definiamo il quantile del campione di ordine p come la statistica d'ordine

X(k) dove k = ceil(np)

(ricorda ceil(np) è il più piccolo intero maggiore o uguale a np). Se np è un intero k, definiamo allora quantile del campione di ordine p come media delle statistiche d'ordine

[X(k) + X(k+1)] / 2.

Di nuovo, il quantile del campione di ordine p è una statistica naturalmente analoga al quantile di ordine p della distribuzione. Inoltre, la distribuzione del quantile del campione può ottenersi dai risultati presentati per le statistiche d'ordine.

Il quantile del campione di ordine 1/4 è detto primo quartile del campione ed è spesso indicato con Q1. Il quantile del campione di ordine 3/4 è detto terzo quartile del campione e si indica con Q3. Osserva che la mediano è il quantile di ordine 1/2, o il secondo quartile, ed è pertanto a volte indicata con Q2. Lo scarto interquartile è definito come

IQR = Q3 - Q1.

Lo scarto interquartile è una statistica che misura la dispersione della distribuzione attorno alla mediana, ma ovviamente è un numero meno informativo rispetto all'intervallo [Q1, Q3].

Analisi esplorativa dei dati

Le cinque statistiche

X(1), Q1, Q2, Q3, X(n)

sono spesso dette riassunto a cinque numeri (five-number summary). Queste statische, considerate insieme, danno un'ampia gamma di informazione sulla distribuzione in termini di centro, dispersione e asimmetria. Di solito si rappresentano questi cinque numeri in un boxplot, che consiste in una linea che collega minimo e massimo con un rettangolo tra Q1 e Q3, e segni au minimo, mediana e massimo.

Simulazione 23. Nell' istogramma interattivo, seleziona "boxplot". Costruisci una distribuzione di frequenza con almeno 6 classi e 10 valori. Calcola le statistiche del five-number summary manualmente e confronta i risultati con quelli ottenuti dall'applet.

Simulazione 24. Nell'applet istogramma interattivo, seleziona "boxplot". Poni l'ampiezza di classe a 0.1 e costruisci una distribuzione con almeno 30 valori per ognuna delle categorie indicate sotto. Aumenta quindi l'ampiezza di classe e osserva la forma del boxplot e le posizioni relative delle statistiche nel five-number summary:

  1. Distribuzione uniforme
  2. Distribuzione simmetrica unimodale
  3. Distribuzione unimodale asimmetrica a destra
  4. Distribuzione unimodale asimmetrica a sinistra
  5. Distribuzione simmetrica bimodale
  6. Distribuzione a forma di u

Simulazione 25. Nell'applet istogramma interattivo, seleziona "boxplot". Genera la distribuzione come segue e osserva gli effetti sul boxplot:

  1. Aggiungi un punto minore di X(1).
  2. Aggiungi un punto tra X(1) e Q1.
  3. Aggiungi un punto tra Q1 e Q2.
  4. Aggiungi un punto tra Q2 e Q3.
  5. Aggiungi un punto tra Q3 e X(n).
  6. Aggiungi un punto maggiore di X(n).

Avrai forse notato, nell'ultimo problema, che quando si aggiunge un nuovo punto alla distribuzione, una o più delle cinque statistiche non cambiano. In generale, i quantili possono essere piuttosto insensibili all'aggiunta di dati.

Esercizio numerico 26. Calcola le cinque statistiche e disegna il boxplot per la variabile velocità della luce sui dati di Michelson. Confronta la mediana con il "vero valore" della velocità della luce.

Esercizio numerico 27. Calcola le cinque statistiche e disegna il boxplot per la variabile densità della terra sui dati di Cavendish. Confronta la mediana con il "valore vero" della densità della terra.

Esercizio numerico 28. Calcola le cinque statistiche e disegna il boxplot per la variabile peso sui dati M&M.

Esercizio numerico 29. Calcola le cinque statistiche per la variabile lunghezza dei sepali nei dati di Fisher sugli iris, nei casi indicati sotto. Disegna i boxplot su assi paralleli in modo da poterli confrontare.

  1. Tutte le varietà
  2. Solo la Setosa
  3. Solo la Verginica
  4. Solo la Versicolor