Laboratorio virtuale > Modelli di campionamento finito > 1 2 3 4 5 6 7 [8] 9 10
Supponiamo che il nostro esperimento casuale consista nell'estrarre un campione casuale di dimensione n, con reinserimento, dalla popolazione
X = (X1, X2, ..., Xn).
Ricordiamo che l'assunzione di base è che X sia distribuita uniformemente sullo spazio campionario
S = {1, 2, ..., N}n.
In questo paragrafo ci interessiamo al numero di valori della popolazione assenti dal campione e al numero di valori (distinti) nel campione. Spesso interpreteremo l'esperimento come una distribuzione di n palline in N caselle; Xi è il numero della cella in cui si trova la pallina i. In questo modello, siamo interessati al numero di celle vuote e di celle occupate.
Per i appartenente a D, sia Yi il numero di volte in cui i si presenta nel campione:
Yi = #{j {1, 2, ..., n}: Xj = i}.
1. Prova che Y = (Y1, Y2, ..., YN) ha distribuzione multinomiale: per interi nonnegativi k1, ..., kN con k1 + k2 + ··· + kN = n,
P(Y1 = k1, Y2 = k2, ..., YN = kN) = C(n; k1, k2, ..., kN) / Nn
Definiamo ora la variabile casuale di interesse principale: il numero di valori della popolazione assenti dal campione:
UN, n = #{j {1, 2, ..., N}: Yj = 0},
e il numero di valori (distinti) della popolazione che si presentano nel campione:
VN, n = #{j {1, 2, ..., N}: Yj > 0}.
Chiaramente si deve avere
UN, n + VN, n = N,
così, avendo la distribuzione di probabilità e i momenti di una delle variabili, possiamo trovarli facilmente per l'altra. Notiamo inoltre che l'evento compleanno, in cui vi è almeno una duplicazione nel campione, può essere scritto come
{VN, n < n} = {UN, n > N - n}.
2. Nell'esperimento del compleanno generalizzato, poni N = 100. Modifica n e osserva la forma del grafico della densità di V e la sua posizione nel campo di variazione. Con n = 30, simula l'esperimento passo per passo un paio di volte e osserva gli esiti. Poi simula 1000 replicazioni, aggiornando ogni 10, e osserva la convergenza delle frequenze relative alla distribuzione "vera".
Per j appartenente a D, considera l'evento in cui j non si presenta nel campione:
Aj = {Yj = 0}.
Sia K sottinsieme di D con #(K) = k. Usando la regola del prodotto del calcolo combinatorio, è semplice contare il numero di campioni che non contengono nessun elemento di K:
3. Mostra che
#[j in K Aj] = (N - k)n.
Ora si può usare la regola di inclusione-esclusione del calcolo combinatorio per contare il numero di campioni privi di almeno un valore della popolazione:
4. Prova che
#[j = 1, ..., N Aj] = k = 1, ..., N (-1)k - 1 C(N, k) (N - k)n.
Una volta ottenuto ciò, è semplice contare il numero di campioni che contengono tutti i valori della popolazione:
5. Prova che
#[j = 1, ..., N Ajc] = k = 1, ..., N (-1)k C(N, k) (N - k)n.
Ora possiamo usare una procedura a due passi per generare tutti i campioni privi di esattamente j valori: in primo luogo selezioniamo i j valori da escludere; poi selezioniamo un campione di dimensione n dai restanti valori della popolazione di modo che non ne sia escluso nessuno. Possiamo quindi usa il principio del prodotto per contare il numero di campioni privi dei j valori.
6. Prova che
#{UN,n = j} = C(N, j) k = 0, ..., N - j (-1)k C(N - j, k) (N - j - k)n.
Infine, poiché la distribuzione di probabilità di X sullo spazio campionario S è uniforme, possiamo trovare la funzione di densità del numero di valori esclusi:
7. Prova che per j = max{N - n, 0}, ..., N - 1,
P(UN,n = j) = C(N, j) k = 0, ..., N - j (-1)k C(N - j, k) [1 - (j + k) / N]n.
Inoltre possiamo ricavare facilmente la funzione di densità del numero di valori distinti nel campione:
8. Mostra che per j = 1, 2, ..., min{N, n},
P(VN,n = j) = C(N, j) k = 0, ..., j (-1)k C(j, k) [(j - k) / N]n.
9. Supponi di scegliere a caso 20 persone. Trova la probabilità che almeno 18 settimane di nascita siano rappresentate.
10. Nell'esperimento del compleanno generalizzato, poni N = 52. Modifica n e osserva forma e posizione della funzione di densità. Con n = 20, simula 1000 replicazioni aggiornando ogni 10 e osserva la convergenza delle frequenze raltive alla funzione di densità.
11. Supponi di lanciare 10 dadi equilibrati. Trova la probabilità di ottenere 4 o meno punteggi distinti.
12. Nell'esperimento del compleanno generalizzato, poni N = 6. Modifica n e osserva forma e posizione della funzione di densità. Con n = 10, simula 1000 replicazioni aggiornando ogni 10 e osserva la convergenza delle frequenze raltive alla funzione di densità.
La distribuzione del numero di valori mancanti può essere ricavata anche con una prova ricorsiva.
13. Sia aN, n(j) = P(UN, n = j) per j = max{N - n, 0}, ..., N - 1. Usa una dimostrazione probabilistica per provare che
14. Supponi di scegliere a caso 20 persone. Trova la probabilità che almeno 3 mesi di nascita non siano rappresentati.
15. Nell'esperimento del compleanno generalizzato, poni N = 12. Modifica n e osserva forma e posizione della funzione di densità. Con n = 20, simula 1000 replicazioni aggiornando ogni 10 e osserva la convergenza delle frequenze raltive alla funzione di densità.
16. Un fast food distribuisce 10 tipi di pupazzi con il menu per bambini. Una famiglia acquista 15 menu: trova la probabilità che manchino almeno 3 tipi di pupazzo.
17. Nell'esperimento del compleanno generalizzato, poni N = 10. Modifica n e osserva forma e posizione della funzione di densità. Con n = 15, simula 1000 replicazioni aggiornando ogni 10 e osserva la convergenza delle frequenze raltive alla funzione di densità.
Vediamo ora come calcolare medie e varianze. Il numero di valori mancanti e il numero di valori distinti sono variabili di conteggio e quindi possono essere scritte come somma di variabili indicatore. Come abbiamo visto in molti altri modelli, tale rappresentazione è spesso la migliore per il calcolo dei momenti.
Sia Ij = 1 se Aj si verifica (j non appartiene al campione) e Ij = 0 se Aj non si verifica (j appartiene al campione).
Notiamo che il numero di valori assenti dal campione può essere scritto come
UN, n = I1 + I2 + ··· + IN.
18. Prova che
19. Usa il risultato dell'esercizio precedente per mostrare che
20. Usa il risultato dell'esercizio 18 per mostrare che
19. Usa il risultato dell'esercizio precdente e le proprietà della varianza per mostrare che
var(UN, n) = var(VN, n) = N(N - 1)(1 - 2 / N)n + N(1 - 1 / N)n - N2(1 - 1 / N)2n.
20. Supponi di scegliere a caso 100 persone. Trova media e deviazione standard del numero di compleanni distinti.
21. Supponi di scegliere a caso 30 persone. Trova media e deviazione standard del numero di settimane di nascita distinte.
22. Nell'esperimento del compleanno generalizzato, poni N = 52. Modifica n e osserva dimensione e posizione della barra media/deviazione standard. Con n = 30, simula 1000 replicazioni aggiornando ogni 10 e osserva la convergenza dei momenti empirici ai loro valori teorici.
23. Supponi di scegliere a caso 20 persone. Trova media e deviazione standard del numero di mesi di nascita distinti.
24.Nell'esperimento del compleanno generalizzato, poni N = 12. Modifica n e osserva dimensione e posizione della barra media/deviazione standard. Con n = 20, simula 1000 replicazioni aggiornando ogni 10 e osserva la convergenza dei momenti empirici ai loro valori teorici.
25. Problema degli studenti bugiardi. Supponi che 3 studenti dello stesso corso saltino un esame di matematica. Decidono inventare una scusa e raccontano al docente che hanno bucato una gomma della macchina. Il docente separa gli studenti e chiede a ciascuno di loro quale fosse la gomma bucata. Gli studenti, che non si aspettavano la domanda, rispondo a caso e indipendentemente l'uno dall'altro.
26. Problema del cacciatore di anatre. Supponi che ci siano 5 cacciatori di anatre, ciascuno perfetto tiratore. Passa uno stormo di 10 anatre e ogni cacciatore ne punta una e spara.