Laboratorio virtuale > Modelli di campionamento finito > 1 2 3 4 5 6 7 [8] 9 10

8. Numero di valori campionari distinti


Variabili semplici

Supponiamo che il nostro esperimento casuale consista nell'estrarre un campione casuale di dimensione n, con reinserimento, dalla popolazione D = {1, 2, ..., N}:

X = (X1, X2, ..., Xn).

Ricordiamo che l'assunzione di base è che X sia distribuita uniformemente sullo spazio campionario

S = {1, 2, ..., N}n.

In questo paragrafo ci interessiamo al numero di valori della popolazione assenti dal campione e al numero di valori (distinti) nel campione. Spesso interpreteremo l'esperimento come una distribuzione di n palline in N caselle; Xi è il numero della cella in cui si trova la pallina i. In questo modello, siamo interessati al numero di celle vuote e di celle occupate.

Per i appartenente a D, sia Yi il numero di volte in cui i si presenta nel campione:

Yi = #{j in{1, 2, ..., n}: Xj = i}.

Esercizio teorico 1. Prova che Y = (Y1, Y2, ..., YN) ha distribuzione multinomiale: per interi nonnegativi k1, ..., kN con k1 + k2 + ··· + kN = n,

P(Y1 = k1, Y2 = k2, ..., YN = kN) = C(n; k1, k2, ..., kN) / Nn

Definiamo ora la variabile casuale di interesse principale: il numero di valori della popolazione assenti dal campione:

UN, n = #{j {1, 2, ..., N}: Yj = 0},

e il numero di valori (distinti) della popolazione che si presentano nel campione:

VN, n = #{j {1, 2, ..., N}: Yj > 0}.

Chiaramente si deve avere

UN, n + VN, n = N,

così, avendo la distribuzione di probabilità e i momenti di una delle variabili, possiamo trovarli facilmente per l'altra. Notiamo inoltre che l'evento compleanno, in cui vi è almeno una duplicazione nel campione, può essere scritto come

{VN, n < n} = {UN, n > N - n}.

Simulazione 2. Nell'esperimento del compleanno generalizzato, poni N = 100. Modifica n e osserva la forma del grafico della densità di V e la sua posizione nel campo di variazione. Con n = 30, simula l'esperimento passo per passo un paio di volte e osserva gli esiti. Poi simula 1000 replicazioni, aggiornando ogni 10, e osserva la convergenza delle frequenze relative alla distribuzione "vera".

La funzione di densità

Per j appartenente a D, considera l'evento in cui j non si presenta nel campione:

Aj = {Yj = 0}.

Sia K sottinsieme di D con #(K) = k. Usando la regola del prodotto del calcolo combinatorio, è semplice contare il numero di campioni che non contengono nessun elemento di K:

Esercizio teorico 3. Mostra che

#[intersezionej in K Aj] = (N - k)n.

Ora si può usare la regola di inclusione-esclusione del calcolo combinatorio per contare il numero di campioni privi di almeno un valore della popolazione:

Esercizio teorico 4. Prova che

#[j = 1, ..., N Aj] = k = 1, ..., N (-1)k - 1 C(N, k) (N - k)n.

Una volta ottenuto ciò, è semplice contare il numero di campioni che contengono tutti i valori della popolazione:

Esercizio teorico 5. Prova che

#[intersezionej = 1, ..., N Ajc] = k = 1, ..., N (-1)k C(N, k) (N - k)n.

Ora possiamo usare una procedura a due passi per generare tutti i campioni privi di esattamente j valori: in primo luogo selezioniamo i j valori da escludere; poi selezioniamo un campione di dimensione n dai restanti valori della popolazione di modo che non ne sia escluso nessuno. Possiamo quindi usa il principio del prodotto per contare il numero di campioni privi dei j valori.

Esercizio teorico 6. Prova che

#{UN,n = j} = C(N, j) k = 0, ..., N - j (-1)k C(N - j, k) (N - j - k)n.

Infine, poiché la distribuzione di probabilità di X sullo spazio campionario S è uniforme, possiamo trovare la funzione di densità del numero di valori esclusi:

Esercizio teorico 7. Prova che per j = max{N - n, 0}, ..., N - 1,

P(UN,n = j) = C(N, j) k = 0, ..., N - j (-1)k C(N - j, k) [1 - (j + k) / N]n.

Inoltre possiamo ricavare facilmente la funzione di densità del numero di valori distinti nel campione:

Esercizio teorico 8. Mostra che per j = 1, 2, ..., min{N, n},

P(VN,n = j) = C(N, j) k = 0, ..., j (-1)k C(j, k) [(j - k) / N]n.

Esercizio teorico 9. Supponi di scegliere a caso 20 persone. Trova la probabilità che almeno 18 settimane di nascita siano rappresentate.

Simulazione 10. Nell'esperimento del compleanno generalizzato, poni N = 52. Modifica n e osserva forma e posizione della funzione di densità. Con n = 20, simula 1000 replicazioni aggiornando ogni 10 e osserva la convergenza delle frequenze raltive alla funzione di densità.

Esercizio teorico 11. Supponi di lanciare 10 dadi equilibrati. Trova la probabilità di ottenere 4 o meno punteggi distinti.

Simulazione 12. Nell'esperimento del compleanno generalizzato, poni N = 6. Modifica n e osserva forma e posizione della funzione di densità. Con n = 10, simula 1000 replicazioni aggiornando ogni 10 e osserva la convergenza delle frequenze raltive alla funzione di densità.

Relazione ricorsiva

La distribuzione del numero di valori mancanti può essere ricavata anche con una prova ricorsiva.

Esercizio teorico 13. Sia aN, n(j) = P(UN, n = j) per j = max{N - n, 0}, ..., N - 1. Usa una dimostrazione probabilistica per provare che

  1. aN, 1(N - 1) = 1.
  2. aN, n+1(j) = [(N - j) / N]aN, n(j) + [(j + 1) / N]aN, n(j + 1).

Esercizio teorico 14. Supponi di scegliere a caso 20 persone. Trova la probabilità che almeno 3 mesi di nascita non siano rappresentati.

Simulazione 15. Nell'esperimento del compleanno generalizzato, poni N = 12. Modifica n e osserva forma e posizione della funzione di densità. Con n = 20, simula 1000 replicazioni aggiornando ogni 10 e osserva la convergenza delle frequenze raltive alla funzione di densità.

Esercizio teorico 16. Un fast food distribuisce 10 tipi di pupazzi con il menu per bambini. Una famiglia acquista 15 menu: trova la probabilità che manchino almeno 3 tipi di pupazzo.

Simulazione 17. Nell'esperimento del compleanno generalizzato, poni N = 10. Modifica n e osserva forma e posizione della funzione di densità. Con n = 15, simula 1000 replicazioni aggiornando ogni 10 e osserva la convergenza delle frequenze raltive alla funzione di densità.

Momenti

Vediamo ora come calcolare medie e varianze. Il numero di valori mancanti e il numero di valori distinti sono variabili di conteggio e quindi possono essere scritte come somma di variabili indicatore. Come abbiamo visto in molti altri modelli, tale rappresentazione è spesso la migliore per il calcolo dei momenti.

Sia Ij = 1 se Aj si verifica (j non appartiene al campione) e Ij = 0 se Aj non si verifica (j appartiene al campione).

Notiamo che il numero di valori assenti dal campione può essere scritto come

UN, n = I1 + I2 + ··· + IN.

Esercizio teorico 18. Prova che

  1. E(Ij) = (1 - 1 / N)n per j = 1, 2, ..., N.
  2. E(Ii Ij) = (1 - 2 / N)n per i, j = 1, 2, ..., N con i <> j.

Esercizio teorico 19. Usa il risultato dell'esercizio precedente per mostrare che

  1. E(UN, n) = N(1 - 1 / N)n.
  2. E(VN, n) = N[1 - (1 - 1 / N)n].

Esercizio teorico 20. Usa il risultato dell'esercizio 18 per mostrare che

  1. var(Ii) = (1 - 1 / N)n - (1 - 1 / N)2n.
  2. cov(Ii, Ij) = (1 - 2 / N)n - (1 - 1 / N)2n se i <> j.

Esercizio teorico 19. Usa il risultato dell'esercizio precdente e le proprietà della varianza per mostrare che

var(UN, n) = var(VN, n) = N(N - 1)(1 - 2 / N)n + N(1 - 1 / N)n - N2(1 - 1 / N)2n.

Esercizio teorico 20. Supponi di scegliere a caso 100 persone. Trova media e deviazione standard del numero di compleanni distinti.

Esercizio teorico 21. Supponi di scegliere a caso 30 persone. Trova media e deviazione standard del numero di settimane di nascita distinte.

Simulazione 22. Nell'esperimento del compleanno generalizzato, poni N = 52. Modifica n e osserva dimensione e posizione della barra media/deviazione standard. Con n = 30, simula 1000 replicazioni aggiornando ogni 10 e osserva la convergenza dei momenti empirici ai loro valori teorici.

Esercizio teorico 23. Supponi di scegliere a caso 20 persone. Trova media e deviazione standard del numero di mesi di nascita distinti.

Simulazione 24.Nell'esperimento del compleanno generalizzato, poni N = 12. Modifica n e osserva dimensione e posizione della barra media/deviazione standard. Con n = 20, simula 1000 replicazioni aggiornando ogni 10 e osserva la convergenza dei momenti empirici ai loro valori teorici.

Esercizio teorico 25. Problema degli studenti bugiardi. Supponi che 3 studenti dello stesso corso saltino un esame di matematica. Decidono inventare una scusa e raccontano al docente che hanno bucato una gomma della macchina. Il docente separa gli studenti e chiede a ciascuno di loro quale fosse la gomma bucata. Gli studenti, che non si aspettavano la domanda, rispondo a caso e indipendentemente l'uno dall'altro.

  1. Trova la funzione di densità di probabilità del numero di risposte distinte.
  2. In particolare, trova la probabilità che gli studenti riescano a cavarsela.
  3. Trova la media del numero di risposte distinte.
  4. Trova la deviazione standard del numero di risposte distinte.

Esercizio teorico 26. Problema del cacciatore di anatre. Supponi che ci siano 5 cacciatori di anatre, ciascuno perfetto tiratore. Passa uno stormo di 10 anatre e ogni cacciatore ne punta una e spara.

  1. Trova la funzione di densità di probabilità del numero di anatre uccise.
  2. Trova la media del numero di anatre uccise.
  3. Trova la deviazione standard del numero di anatre uccise.