Laboratorio virtuale > Modelli di campionamento finito > 1 [2] 3 4 5 6 7 8 9 10
Supponiamo di avere una popolazione dicotomica D composta da due tipi di unità. Per esempio, possiamo avere delle palline in un'urna colorate di rosso o di verde, una scatola di componenti elettronici funzionanti o difettosi, una popolazione di persone maschi o femmine, o una popolazione di animali marchiati o non marchiati. Sia D1 il sottinsieme di D formato dalle unità di tipo 1, e si supponga che D1 abbia cardinalità R. Come nel modello di campionamento semplice, estraiamo a caso n unità da D:
X = (X1, X2, ..., Xn), dove Xi appartenente a D è l'i-esima unità estratta.
In questo paragrafo ci occupiamo della variabile casuale Y, che indica il numero di oggetti di tipo 1 nel campione. Notiamo che Y è una variabile di conteggio, e come tale può essere scritta come somma di variabili indicatore.
1. Prova che Y = I1 + I2 + ··· + In dove Ii = 1 se Xi appartiene a D1 (l'i-esima unità è di tipo 1) e Ii = 0 altrimenti.
Per iniziare, assumeremo di estrarre senza reinserimento, che è di solito la scelta più realistica nel caso di popolazioni dicotomiche.
Ricordiamo che, poiché l'estrazione avviene senza reinserimento, il campione non ordinato è distribuito uniformemente sull'insieme di tutte le combinazioni di dimensione n estratte da D. Tale osservazione di porta a una semplice derivazione caombinatoriale della densità di Y.
2. Mostra che, per k = max{0, n - (N - R)}, ..., min{n, R},
P(Y = k) = C(R, k) C(N - R, n - k) / C(N, n).
Tale formula è nota come distribuzione ipergeometrica con parametri N, R, e n. Se adottiamo la convenzione C(j, i) = 0 per i > j la formula della funzione di densità è corretta per k = 0, 1, ..., n.
3. Prova che la formulazione alternativa della densità ipergeometrica in due modi: usando il calcolo combinatorio, considerando l'esito come permutazione di dimensione n estratta dalla popolazione di N palline, e algebricamente, partendo dal risultato dell'esercizio 2.
P(Y = k) = C(n, k) (R)k (N - R)n - k / (N)n per k = 0, 1, ..., n.
4. Nell'esperimento delle palline nell'urna, seleziona estrazione senza reinserimento. Modifica i parametri e osserva la forma del grafico della funzione di densità. Con N = 50, R = 30 e n = 10 esegui l'esperimento aggiornando ogni 100 replicazioni. Osserva la convergenza delle frequenze relative alla funzione di densità.
Negli esercizi seguenti ricaveremo media e varianza di Y. Avranno un ruolo chiave la proprietà di scambiabilità delle variabili indicatore e le proprietà di covarianza e correlazione.
5. Dimostra che E(Ii) = R / N per ogni i.
6. Prova che E(Y) = n (R / N).
8. Mostra che var(Ii) = (R / N) (1 - R / N) per ogni j.
9. Prova che, per i e j distinti,
Nota dall'esercizio 9 che l'evento in cui si estrae un'unità di tipo 1 all'i-esima estrazione e l'evento in cui se ne estrae una alla j-esima sono negativamente correlati, ma la correlazione dipende solo dala dimensione della popolazione e non dal numero di unità di tipo 1. Nota inoltre che la correlazione è perfetta se N= 2. Prova a interpretare questi risultati in termini intuitivi.
10. Nell'esperimento delle palline nell'urna, poni N = 50, R = 20 e n = 10 ed esegui l'esperimento 500 volte, aggiornando ogni volta. Calcola la correlazione empirica degli eventi "pallina rossa alla terza estrazione" e "pallina rossa alla settima estrazione" e confronta i risultati con quelli teorici presentati nell'esercizio precedente.
11. Usa i risultati degli esercizi 8 e 9 per mostrare che
var(Y) = n (R / N)(1 - R / N) (N - n) / (N - 1).
Nota che var(Y) = 0 se R = 0, R = N, o n = N. Pensa a questi risultati.
14. Nell'esperimento delle palline nell'urna, seleziona estrazione senza reinserimento. Modifica i parametri e osserva la dimensione e la posizione della barra media/deviazione standard. Con N = 50, R = 30 e n = 10 esegui l'esperimento aggiornando ogni 100 replicazioni. Osserva la convergenza dei momenti empirici a quelli teorici.
15. Una scatola di 100 chip di memoria contiene 10 chip difettosi. Si estraggono a caso cinque chip, senza reinserimento.
16. Un club comprende 50 membri, 20 uomini e 30 donne. Si forma a caso un comitato di 10 membri.
Supponiamo ora che le estrazioni siano effettuate con reinserimento, anche se ciò non è sempre realistico nelle applicazioni reali.
17. Prova che gli I1, I2, ..., In formano una sequenza di n prove Bernoulliane con parametro di successo R / N.
I risultati seguenti seguono immediatamente dalla teoria generale delle prove Bernoulliane, anche se a volte si possono utilizzare dimostrazioni modificate.
18. Mostra che Y ha distribuzione binomiale con parametri n e R / N:
P(Y = k) = C(n, k) (R / N)k(1 - R / N)n - k per k = 0, 1, ..., n.
19. Prova che
Notiamo che per qualsiasi valore dei parametri, E(Y) resta lo stesso, sia nel caso del campionamento con reinserimento che in quello senza reinserimento. D'altra parte, var(Y) è inferiore,
di un fattore di
Supponiamo che la dimensione della popolazione N sia molto grande rispetto alla dimensione del campione n. In questo caso, sembra ragionevole che il campionamento senza reinserimento non sia molto diverso da quello con reinserimento, e quindi la distribuzione ipergeometrica dovrebbe approssimarsi bene con la binomiale. L'esercizio seguente precisa questa osservazione. All'atto pratico, si tratta di un risultato prezioso, poiché in molti casi non conosciamo con esattezza la dimensione della popolazione.
20. Supponi che R dipenda da N e che
R / N p in [0, 1] per N .
Mostra che, per dato n, la densità ipergeometrica con parametri N, R e n converge alla densità binomiale con parametri n e p. Suggerimento: Usa la rappresentazione dell'esercizio 3.
21. Nell'esperimento delle palline nell'urna, modifica i parametri e cambia da estrazione con reinserimento a estrazione senza reinserimento. Osserva la differenza tra il grafico delle distribuzioni ipergeometrica e binomiale. Poni N = 100, n = 10 e R = 30. Simula 1000 replicazioni, aggiornando ogni 100. Confronta le frequenze relative con la funzione di densità ipergeometrica e con l'approssimazione binomiale.
22. Un laghetto contiene 1000 pesci, di cui 100 sono marchiati. Supponi che vengano catturati 20 pesci.
23. Il 40% degli elettori di un comune preferiscono il candidato A. Supponi di scegliere a caso 10 elettori. Trova la probabilità che almeno 5 preferiscano il candidato A.
24. Nel contesto dell'esercizio 20, mostra che media e varianza della distribuzione ipergeometrica convergono alla media e alla varianza della distribuzione binomiale per N .