Laboratorio virtuale > Campioni casuali > 1 2 3 4 5 6 [7] 8 9
Introduciamo in primo luogo un esperimento casuale semplice definito su un certo spazio campionario e con misura di probabilità P. Supponiamo che X sia una variabile casuale relativa all'esperimento con funzione di ripartizione F e funzione di densità f.
Generiamo n replicazioni indipendenti dell'esperimento semplice per ottenere un campione casuale di dimensione n dalla distribuzione di X:
(X1, X2, ..., Xn),
Ricorda che si tratta di variabili casuali indipendenti, ciascuna distribuita come X.
Sia X(k) il valore k-esimo più piccolo di X1, X2, ..., Xn. Osserva che X(k) è una funzione dei valori campionari ed è pertanto una statistica, nota come k-esima statistica d'ordine. Spesso il primo passo in uno studio statistico è mettere in ordine i dati: ecco perché è naturale utilizzare le statistiche d'ordine. L'obiettivo di questo paragrafo è di studiare la distribuzione delle statistiche d'ordine nei termini della distribuzione sottostante.
Osserva in particolare che le statistiche d'ordine estremo sono i valori minimo e massimo:
1. Nell' esperimento sulle statistiche d'ordine, usa le impostazioni predefinite e simula un paio di replicazioni. Nota che:
Sia Gk la funzione di ripartizione di X(k). Fissiamo un reale y e definiamo
Ny = #{i {1, 2, ..., n}: Xi y}.
2. Dimostrare che Ny ha distribuzione binomiale con parametri n e F(y).
3. Dimostrare che X(k) y se e solo se Ny k.
4. Concludere, dagli esercizi 2 e 3, che per y appartenente a R,
Gk(y) = j = k, ..., n C(n, j) [F(y)]j [1 - F(y)]n - j.
5. Dimostrare in particolare che G1(y) = 1 - [1 - F(y)]n per y appartenente a R.
6. Provare in particolare che Gn(y) = [F(y)]n per y appartenente a R.
7. Supponi ora che X abbia distribuzione continua. Prova che X(k) ha distribuzione continua con densità
gk(y) = C(n; k - 1, 1, n - k) [F(y)]k - 1[1 - F(y)]n - kf(y)
dove C(n; k - 1, 1, n - k) è il coefficiente multinomiale. Suggerimento: Deriva rispetto a y l'espressione nell'esercizio 4.
8. Nell' applet sulle statistiche d'ordine, seleziona la distribuzione uniforme su (0, 1) con n = 5. Modifica k da 1 a 5 e osserva la forma della funzione di densità di X(k). Con k = 4 simula 1000 replicazioni aggiornando ogni 10 e osserva la convergenza della funzione di densità empirica a quella teorica.
C'è un semplice argomento che spiega il risultato dell'esercizio 7. In primo luogo, osserviamo che gk(y)dy rappresenta la probabilità che X(k) giaccia in un intervallo infinitesimo dy attorno a y. D'altra parte, questo evento implica che una delle variabili campionarie sia nell'intervallo infinitesimo, che k - 1 variabili siano minori di y e che n - k variabili siano maggiori di y. Il numero di modi di disporre queste variabili è il coefficiente multinomiale
C(n; k - 1, 1, n - k).
La probabilità che le variabili scelte giacciano negli intervalli selezionati è
[F(y)]k - 1[1 - F(y)]n - kf(y)dy.
9. Considera un campione casuale di dimensione n dalla distribuzione esponenziale con parametro r. Calcola la funzione di densità della k-esima statistica d'ordine X(k). Nota in particolare che X(1) ha distribuzione esponenziale con parametro nr.
10. Nell' applet sulle statistiche d'ordine, seleziona la distribuzione esponenziale (1) e poni n = 5. Fa' variare k da 1 a 5 e osserva la forma della funzione di densità di X(k). Con k = 3, simula 1000 replicazioni aggiornando ogni 10 e osserva la convergenza della funzione di densità empirica a quella teorica.
11. Considera un campione casuale di dimensione n dalla distribuzione uniforme su (0, 1).
12. Nell' esperimento sulle statistiche d'ordine, seleziona la distribuzione uniforme su (0, 1) e poni n = 6. Fa' variare k da 1 a 6 e osserva la forma della funzione di densità di X(k). Con k = 3, simula 1000 replicazioni aggiornando ogni 10 e osserva la convergenza dei momenti empirici a quelli teorici.
13. Si lanciano quattro dadi equilibrati. Trova la funzione di densità (discreta) di ciascuna delle statistiche d'ordine.
14. Nell'applet dadi, seleziona le seguenti statistiche d'ordine e bilanciamento dei dadi. Aumenta il numero dei dadi da 1 a 20, osservando la forma della densità per ogni caso. Ponendo n = 4, simula 1000 replicazioni aggiornando ogni 10 e osserva la convergenza delle frequenze relative alla funzione di densità.
Supponiamo di nuovo che X abbia distribuzione continua.
15. Poniamo j < k. Prova per via induttiva che la densità congiunta di (X(j), X(k)) è
g(y, z) = C(n; j - 1, 1, k - j - 1, 1, n - k) × [F(y)]j - 1 f(y) [F(z) - F(y)]k - j - 1 f(z) [1 - F(z)]n - k per y < z.
Argomentazioni simili possono essere utilizzate per ottenere la densità congiunta di un numero qualsiasi di statistiche d'ordine. Ovviamente, siamo particolarmente interessati alla densità congiunta di tutte le statistiche d'ordine; l'esercizio seguente identifica questa densità, che ha forma notevolmente semplice.
16. Prova che (X(1), X(2), ..., X(n)) ha densità congiunta g data da
g(y1, y2, ..., yn) = n! f(y1)f(y2) ··· f(yn) per y1 < y2 < ··· < yn.
Suggerimento: Per ogni permutazione i = (i1, i2, ..., in) di (1, 2, ..., n), poni
Si = {x appartenente a Rn: xi1 < xi2 < ··· < xin}.
Su Si la funzione da (x1, x2, ..., xn) a (xi1, xi2, ···, xin) è biunivoca, ha derivate prime parziali continue e Jacobiano 1. Gli insiemi Si dove i copre le n! permutazioni di (1, 2, ..., n) sono disgiunte e la probabilità che (X1, X2, ..., Xn) non appartenga a uno di questi insiemi è 0. Usa la formula di cambiamento di variabile multivariata.
Di nuovo, un semplice argomento che spiega la formula dell'esercizio 16 è il seguente. Per ogni y appartenente a Rn cony1 < y2 < ··· < yn, esistono n! permutazioni delle coordinate di y. La densità di (X1, X2, ..., Xn) in ciascuno di questi punti è
f(y1)f(y2) ··· f(yn)
Per cui la densità di (X(1), X(2), ..., X(n)) a y è n! volte questo prodotto.
17. Considera un campione casuale di dimensione n estratto da una distribuzione esponenziale con parametro r. Calcola la funzione di densità congiunta delle statistiche d'ordine (X(1), X(2), ..., X(n)).
18. Considera un campione casuale di dimensione n dalla distribuzione uniforme su (0, 1). Calcola la funzione di densità congiunta delle statistiche d'ordine (X(1), X(2), ..., X(n)).
19. Si lanciano 4 dadi bilanciati. Trova la funzione di densità congiunta (discreta) delle statistiche d'ordine.
Lo scarto campionario è la variabile casuale
R = X(n) - X(1).
Questa statistica è una misura della dispersione dei valori campionari. Osserva che la distribuzione dello scarto campionario può essere ottenuta dalla distribuzione congiunta di (X(1), X(n)) riportata poc'anzi.
20. Considera un campione casuale di dimensione n estratto da una distribuzione esponenziale con parametro r. Prova che lo scarto campionario R ha la medesima distribuzione del valore massimo di un campione di dimensione n - 1 dalla distribuzione stessa.
21. Considera un campione casuale di dimensione n dalla distribuzione uniforme su (0, 1).
22. Si lanciano 4 dadi bilanciati. Trova la funzione di densità (discreta) dello scarto campionario.
Se n è dispari, la mediana del campione è il valore centrale delle osservazioni ordinate, ovvero
X(k) dove k = (n + 1)/2.
Se n è pari, ci sono due osservazioni centrali. Pertanto, l'intervallo mediano è
[X(k), X(k+1)] con k = n/2.
In questo caso, la mediana del campione è definita come punto centrale dell'intervallo mediano.
[X(k) + X(k+1)] / 2.
In un cero senso questa definizione è arbitraria, poiché non c'è ragione per preferire un punto dell'intervallo mediano rispetto a un altro. Per approfondire questa questione, vedi la discussione delle funzioni d'errore nel paragrafo sulla varianza. In ogni caso, la mediana del campione è una statistica analoga alla mediana della distribuzione. Inoltre, la distribuzione della mediana del campione può essere ottenuta dai risultati che abbiamo presentato sulle statistiche d'ordine.
Possiamo estendere il concetto di mediana campionaria esposto poc'anzi agli altri quantili. Supponi che p sia in (0, 1). Se np non è intero, definiamo il quantile del campione di ordine p come la statistica d'ordine
X(k) dove k = ceil(np)
(ricorda ceil(np) è il più piccolo intero maggiore o uguale a np). Se np è un intero k, definiamo allora quantile del campione di ordine p come media delle statistiche d'ordine
[X(k) + X(k+1)] / 2.
Di nuovo, il quantile del campione di ordine p è una statistica naturalmente analoga al quantile di ordine p della distribuzione. Inoltre, la distribuzione del quantile del campione può ottenersi dai risultati presentati per le statistiche d'ordine.
Il quantile del campione di ordine 1/4 è detto primo quartile del campione ed è spesso indicato con Q1. Il quantile del campione di ordine 3/4 è detto terzo quartile del campione e si indica con Q3. Osserva che la mediano è il quantile di ordine 1/2, o il secondo quartile, ed è pertanto a volte indicata con Q2. Lo scarto interquartile è definito come
IQR = Q3 - Q1.
Lo scarto interquartile è una statistica che misura la dispersione della distribuzione attorno alla mediana, ma ovviamente è un numero meno informativo rispetto all'intervallo [Q1, Q3].
Le cinque statistiche
X(1), Q1, Q2, Q3, X(n)
sono spesso dette riassunto a cinque numeri (five-number summary). Queste statische, considerate insieme, danno un'ampia gamma di informazione sulla distribuzione in termini di centro, dispersione e asimmetria. Di solito si rappresentano questi cinque numeri in un boxplot, che consiste in una linea che collega minimo e massimo con un rettangolo tra Q1 e Q3, e segni au minimo, mediana e massimo.
23. Nell' istogramma interattivo, seleziona "boxplot". Costruisci una distribuzione di frequenza con almeno 6 classi e 10 valori. Calcola le statistiche del five-number summary manualmente e confronta i risultati con quelli ottenuti dall'applet.
24. Nell'applet istogramma interattivo, seleziona "boxplot". Poni l'ampiezza di classe a 0.1 e costruisci una distribuzione con almeno 30 valori per ognuna delle categorie indicate sotto. Aumenta quindi l'ampiezza di classe e osserva la forma del boxplot e le posizioni relative delle statistiche nel five-number summary:
25. Nell'applet istogramma interattivo, seleziona "boxplot". Genera la distribuzione come segue e osserva gli effetti sul boxplot:
Avrai forse notato, nell'ultimo problema, che quando si aggiunge un nuovo punto alla distribuzione, una o più delle cinque statistiche non cambiano. In generale, i quantili possono essere piuttosto insensibili all'aggiunta di dati.
26. Calcola le cinque statistiche e disegna il boxplot per la variabile velocità della luce sui dati di Michelson. Confronta la mediana con il "vero valore" della velocità della luce.
27. Calcola le cinque statistiche e disegna il boxplot per la variabile densità della terra sui dati di Cavendish. Confronta la mediana con il "valore vero" della densità della terra.
28. Calcola le cinque statistiche e disegna il boxplot per la variabile peso sui dati M&M.
29. Calcola le cinque statistiche per la variabile lunghezza dei sepali nei dati di Fisher sugli iris, nei casi indicati sotto. Disegna i boxplot su assi paralleli in modo da poterli confrontare.