Laboratorio virtuale > Modelli di campionamento finito > 1 [2] 3 4 5 6 7 8 9 10

2. La distribuzione ipergeometrica


Supponiamo di avere una popolazione dicotomica D composta da due tipi di unità. Per esempio, possiamo avere delle palline in un'urna colorate di rosso o di verde, una scatola di componenti elettronici funzionanti o difettosi, una popolazione di persone maschi o femmine, o una popolazione di animali marchiati o non marchiati. Sia D1 il sottinsieme di D formato dalle unità di tipo 1, e si supponga che D1 abbia cardinalità R. Come nel modello di campionamento semplice, estraiamo a caso n unità da D:

X = (X1, X2, ..., Xn), dove Xi appartenente a D è l'i-esima unità estratta.

In questo paragrafo ci occupiamo della variabile casuale Y, che indica il numero di oggetti di tipo 1 nel campione. Notiamo che Y è una variabile di conteggio, e come tale può essere scritta come somma di variabili indicatore.

Esercizio teorico 1. Prova che Y = I1 + I2 + ··· + In dove Ii = 1 se Xi appartiene a D1 (l'i-esima unità è di tipo 1) e Ii = 0 altrimenti.

Per iniziare, assumeremo di estrarre senza reinserimento, che è di solito la scelta più realistica nel caso di popolazioni dicotomiche.

La funzione di densità

Ricordiamo che, poiché l'estrazione avviene senza reinserimento, il campione non ordinato è distribuito uniformemente sull'insieme di tutte le combinazioni di dimensione n estratte da D. Tale osservazione di porta a una semplice derivazione caombinatoriale della densità di Y.

Esercizio teorico 2. Mostra che, per k = max{0, n - (N - R)}, ..., min{n, R},

P(Y = k) = C(R, k) C(N - R, n - k) / C(N, n).

Tale formula è nota come distribuzione ipergeometrica con parametri N, R, e n. Se adottiamo la convenzione C(j, i) = 0 per i > j la formula della funzione di densità è corretta per k = 0, 1, ..., n.

Esercizio teorico 3. Prova che la formulazione alternativa della densità ipergeometrica in due modi: usando il calcolo combinatorio, considerando l'esito come permutazione di dimensione n estratta dalla popolazione di N palline, e algebricamente, partendo dal risultato dell'esercizio 2.

P(Y = k) = C(n, k) (R)k (N - R)n - k / (N)n per k = 0, 1, ..., n.

Simulazione 4. Nell'esperimento delle palline nell'urna, seleziona estrazione senza reinserimento. Modifica i parametri e osserva la forma del grafico della funzione di densità. Con N = 50, R = 30 e n = 10 esegui l'esperimento aggiornando ogni 100 replicazioni. Osserva la convergenza delle frequenze relative alla funzione di densità.

Momenti

Negli esercizi seguenti ricaveremo media e varianza di Y. Avranno un ruolo chiave la proprietà di scambiabilità delle variabili indicatore e le proprietà di covarianza e correlazione.

Esercizio teorico 5. Dimostra che E(Ii) = R / N per ogni i.

Esercizio teorico 6. Prova che E(Y) = n (R / N).

Esercizio teorico 8. Mostra che var(Ii) = (R / N) (1 - R / N) per ogni j.

Esercizio teorico 9. Prova che, per i e j distinti,

  1. cov(Ii, Ij) = -(R / N) (1 - R / N) [1 / (N - 1)]
  2. cor(Ii, Ij) = -1 / (N - 1)

Nota dall'esercizio 9 che l'evento in cui si estrae un'unità di tipo 1 all'i-esima estrazione e l'evento in cui se ne estrae una alla j-esima sono negativamente correlati, ma la correlazione dipende solo dala dimensione della popolazione e non dal numero di unità di tipo 1. Nota inoltre che la correlazione è perfetta se N= 2. Prova a interpretare questi risultati in termini intuitivi.

Simulazione 10. Nell'esperimento delle palline nell'urna, poni N = 50, R = 20 e n = 10 ed esegui l'esperimento 500 volte, aggiornando ogni volta. Calcola la correlazione empirica degli eventi "pallina rossa alla terza estrazione" e "pallina rossa alla settima estrazione" e confronta i risultati con quelli teorici presentati nell'esercizio precedente.

Esercizio teorico 11. Usa i risultati degli esercizi 8 e 9 per mostrare che

var(Y) = n (R / N)(1 - R / N) (N - n) / (N - 1).

Nota che var(Y) = 0 se R = 0, R = N, o n = N. Pensa a questi risultati.

Simulazione 14. Nell'esperimento delle palline nell'urna, seleziona estrazione senza reinserimento. Modifica i parametri e osserva la dimensione e la posizione della barra media/deviazione standard. Con N = 50, R = 30 e n = 10 esegui l'esperimento aggiornando ogni 100 replicazioni. Osserva la convergenza dei momenti empirici a quelli teorici.

Esercizio teorico 15. Una scatola di 100 chip di memoria contiene 10 chip difettosi. Si estraggono a caso cinque chip, senza reinserimento.

  1. Calcola esplicitamente la funzione di densità del numero di chip difettosi nel campione.
  2. Calcola esplicitamente media e varianza del numero di chip difettosi del campione.
  3. Trova la probabilità che il campione contenga almeno un chip difettoso.

Esercizio teorico 16. Un club comprende 50 membri, 20 uomini e 30 donne. Si forma a caso un comitato di 10 membri.

  1. Trova media e varianza del numero di donne nel comitato.
  2. Trova media e varianza del numero di uomini nel comitato.
  3. Trova la probabilità che tutti i membri del comitato siano dello stesso sesso.

Estrazioni con reinserimento

Supponiamo ora che le estrazioni siano effettuate con reinserimento, anche se ciò non è sempre realistico nelle applicazioni reali.

Esercizio teorico 17. Prova che gli I1, I2, ..., In formano una sequenza di n prove Bernoulliane con parametro di successo R / N.

I risultati seguenti seguono immediatamente dalla teoria generale delle prove Bernoulliane, anche se a volte si possono utilizzare dimostrazioni modificate.

Esercizio teorico 18. Mostra che Y ha distribuzione binomiale con parametri n e R / N:

P(Y = k) = C(n, k) (R / N)k(1 - R / N)n - k per k = 0, 1, ..., n.

Esercizio teorico 19. Prova che

  1. E(Y) = n(R / N).
  2. var(Y) = n(R / N)(1 - R / N)

Notiamo che per qualsiasi valore dei parametri, E(Y) resta lo stesso, sia nel caso del campionamento con reinserimento che in quello senza reinserimento. D'altra parte, var(Y) è inferiore, di un fattore di (N - n) / (N - 1), quando il campionamento avviene senza reinserimento rispetto al caso con reinserimento. Pensa a questi risultati. Il fattore (N - n) / (N - 1) è a volte detto fattore di correzione della popolazione finita.

Convergenza della distribuzione ipergeometrica alla binomiale

Supponiamo che la dimensione della popolazione N sia molto grande rispetto alla dimensione del campione n. In questo caso, sembra ragionevole che il campionamento senza reinserimento non sia molto diverso da quello con reinserimento, e quindi la distribuzione ipergeometrica dovrebbe approssimarsi bene con la binomiale. L'esercizio seguente precisa questa osservazione. All'atto pratico, si tratta di un risultato prezioso, poiché in molti casi non conosciamo con esattezza la dimensione della popolazione.

Esercizio teorico 20. Supponi che R dipenda da N e che

R / N converge a p in [0, 1] per N converge a infinito.

Mostra che, per dato n, la densità ipergeometrica con parametri N, R e n converge alla densità binomiale con parametri n e p. Suggerimento: Usa la rappresentazione dell'esercizio 3.

Simulazione 21. Nell'esperimento delle palline nell'urna, modifica i parametri e cambia da estrazione con reinserimento a estrazione senza reinserimento. Osserva la differenza tra il grafico delle distribuzioni ipergeometrica e binomiale. Poni N = 100, n = 10 e R = 30. Simula 1000 replicazioni, aggiornando ogni 100. Confronta le frequenze relative con la funzione di densità ipergeometrica e con l'approssimazione binomiale.

Esercizio teorico 22. Un laghetto contiene 1000 pesci, di cui 100 sono marchiati. Supponi che vengano catturati 20 pesci.

  1. Calcola la probabilità che il campione contenga almeno 2 pesci marchiati.
  2. Trova l'approssimazione binomiale alla probabilità di (a).
  3. Calcola l'errore relativo dell'approssimazione.

Esercizio teorico 23. Il 40% degli elettori di un comune preferiscono il candidato A. Supponi di scegliere a caso 10 elettori. Trova la probabilità che almeno 5 preferiscano il candidato A.

Esercizio teorico 24. Nel contesto dell'esercizio 20, mostra che media e varianza della distribuzione ipergeometrica convergono alla media e alla varianza della distribuzione binomiale per N converge a infinito.