Inferenza nel modello ipergeometrico

3. Inferenza nel modello ipergeometrico

Concetti preliminari

Supponiamo ancora di avere una popolazione dicotomica D con R unità di tipo 1 e N - R di tipo 2. Come nell'introduzione, estraiamo a caso n unità da D:

X = (X₁, X₂, ..., X_n), dove X_i appartenente a D è l'i-esima unità estratta.

In molte applicazioni reali, i parametri R o N (o entrambi) possono essere ignoti. In tal caso, si può essere interessati a trarre inferenza dai parametri ignoti basandosi sulle osservazioni di Y, ovvero il numero di unità di tipo 1 nel campione. Assumiamo per iniziare che il campionamento avvenga senza reinserimento, il che è l'ipotesi più realistica nella maggior parte dei casi. Ricordiamo che, in questo caso, Y ha distribuzione ipergeometrica con parametri n, R e N.

Stima di `R` con `N` noto

Supponiamo che la dimensione della popolazione N sia nota, ma che sia ignoto il numero R di unità di tipo 1. Tale situazione si può presentare, ad esempio, se abbiamo una scatola di N chip di memoria che contengono un numero di unità difettose R. Sarebbe troppo costoso e forse distruttivo sottoporre a test tutti gli N chip, per cui si possono invece selezionare n chip a caso e sottoporli a test.

Un semplice stimatore di R può essere ricavato sperando che la proporzione campionaria di unità di tipo uno sia prossima alla proporzione nella popolazione di unità di tipo 1. Cioè,

Y / n ~ R / N per R ~ N Y / n.

$Esercizio teorico$ 1. Prova che E(N Y / n) = R.

Il risultto dell'esercizio 1 implica che N Y / n è uno stimatore corretto per R. Quindi la varianza è misura della qualità dello stimatore, nel senso della media quadratica.

$Esercizio teorico$ 2. Mostra che var(N Y / n) = R (N - R) (N - n) / [n (N - 1)].

$Esercizio teorico$ 3. Prova che, per dati N e R, l'errore quadratico medio tende a 0 per n che tende a N.

Lo stimatore quindi migliora all'aumentare della dimensione campionaria; tale proprietà è nota come consistenza.

4. Nell'esperimento delle palline nell'urna, seleziona l'estrazione senza reinserimento e poni N = 50, R = 20 e n = 10. Simula 100 replicazioni, aggioranando ogni volta.

Per ciascuna replicazione, calcola N Y / n (stima di R), NY / n - R (errore) e (NY / n - R)² (errore quadratico).
Calcola l'errore medio e l'errore quadratico medio per le 100 replicazioni.
Calcola la radice quadrata dell'errore quadratico medio e confronta tale valore, ricavato empiricamente, con la varianza dell'esercizio 2.

$Esercizio teorico$ 5. Supponi che, da una scatola di 100 chip di memoria, se ne estraggano a caso e senza reinserimento 10. I chip vengono provati e 2 risultano difettosi. Stima il numero di chip difettosi nell'intera scatola.

$Esercizio teorico$ 6. Un comune ha 5000 elettori. Supponi che se ne scelgano a caso 100 e che, intervistati, 40 preferiscano il candidato A. Stima il numero di elettori del comune che preferiscono A.

Campioni per accettazione

A volte non siamo interessati alla stima di R, ma a determinare se R raggiunge o supera un certo valore critico C. Questa situazione si presenta in particolare per i campioni per accettazione. Supponiamo di avere una popolazione di unità buone o difettose. Se il numero di unità difettose R è maggiore o uguale a C (il valore critico), allora rifiutiamo l'intero lotto. Testare tutte le unità è costoso e distruttivo, per cui dobbiamo testare un campione casuale di n unità (ovviamente estratte senza reinseirmento) e basare la nostra decisione di accettare o rifiutare il lotto sul numero di unità difettose nel campione. Chiaramente, l'unico approccio ragionevole è scegliere un nuovo valore critico c e rifiutare il lotto se il numero di unità difettose nel campione è maggiore o uguale a c. In termini statistici, abbiamo descritto un test di ipotesi.

Nei seguenti esercizi, poni N = 100 e C = 10. Rifiutiamo il lotto di 100 unità se il numero di unità difettose R è 10 o più. Supponiamo di poterci permettere al massimo di verificare n = 10 unità.

Analizziamo in primo luogo il test seguente: Rifiutare il lotto se il numero di unità difettose del campione è almeno 1.

$Esercizio teorico$ 7. Per ciascuno dei seguenti valori di R (il numero "vero" di unità difettose), trova la probabilità di prendere la decisione corretta e quella di prendere la decisione sbagliata:

R = 6
R = 8
R = 10
R = 12
R = 14

8. Nell'esperimento delle palline nell'urna, seleziona l'estrazione senza reinserimento e poni N = 100 e n = 10. Per ciascuno dei valori di R proposti nell'esercizio 7, simula 1000 replicazioni, aggiornando ogni 100. Calcola la frequenza relativa dei rifiuti e confrontala con la probabilità trovata nell'esercizio 7.

Analizziamo ora il test seguente: Rifiutare il lotto se il numero di unità difettose del campione è almeno 2.

$Esercizio teorico$ 9. Per ciascuno dei seguenti valori di R (il numero "vero" di unità difettose), trova la probabilità di prendere la decisione corretta e quella di prendere la decisione sbagliata:

R = 6
R = 8
R = 10
R = 12
R = 14

10. Nell'esperimento delle palline nell'urna, seleziona l'estrazione senza reinserimento e poni N = 100 e n = 10. Per ciascuno dei valori di R proposti nell'esercizio 9, simula 1000 replicazioni, aggiornando ogni 100. Calcola la frequenza relativa dei rifiuti e confrontala con la probabilità trovata nell'esercizio 9.

$Esercizio teorico$ 11. Dei due test appena visti,

Quale funziona meglio quando il lotto dovrebbe essere accettato (R < 10)?
Quale funziona meglio quando il lotto dovrebbe essere rifiutato (R 10)?

Stima di `N` con `R` noto

Supponiamo ora che il numero di unità di tipo 1 R sia noto e che la dimensione della popolazione N sia ignota. Come esempio di questo tipo di situazione, supponiamo di avere un lago contenente N pesci, con N ignoto. Catturiamo R pesci, li marchiamo e li ributtiamo nel lago. Poi catturiamo di nuovo n pesci e osserviamo Y, numero di pesci marchiati nel campione. Vogliamo stimare N a partire da questi dati. In questo contesto, il problema della stima è detto a volte problema di cattura-ricattura.

$Esercizio teorico$ 12. Pensi che l'assunzione principale dell'esperimento delle palline e dell'urna, ovvero equiprobabilità dei campioni, sia soddisfatto in un problema reale di cattura e ricattura? Spiega perché.

Di nuovo, possiamo ricavare una stima di N sperando che la proporzione campionaria delle unità di tipo 1 sia prossima alla proporzione della popolazione di unità di tipo 1. Cioè

Y / n ~ R / N per N ~ nR / Y (se Y > 0).

Quindi, il nostro stimatore per N è nR / Y se Y > 0 ed è indefinito se Y = 0.

13. Nell'esperimento delle palline nell'urna, seleziona l'estrazione senza reinserimento e poni N = 80, R = 30 e n = 20. Simula 100 replicazioni, aggiornando ogni volta

Per ciascuna replicazione, calcola nR / Y (stima di R), nR / Y - N (errore) e (nR / Y - N)² (errore quadratico).
Calcola l'errore medio e l'errore quadratico medio per le 100 replicazioni.
Calcola la radice quadrata dell'errore quadratico medio. Tale valore è una stima empirica dell'errore quadratico medio dello stimatore.

$Esercizio teorico$ 14. In un certo lago si catturano 200 pesci, li si marchiano e li si ributtano nel lago. Poi si catturano 100 pesci e si vede che 10 di essi sono marchiati. Stima la popolazione di pesci nel lago.

$Esercizio teorico$ 15. Prova che, se k > 0, allora nR / k massimizza P(Y = k) in funzione di N per dati R e n. Ciò significa che nR / Y è lo stimatore di massima verosimiglianza di N.

$Esercizio teorico$ 16. Usa la disuguaglianza di Jensen per mostrare che E(nR / Y) N.

Lo stimatore è quindi distorto e tende a sovrastimare N. Infatti, se n N - R, per cui P(Y = 0) > 0, E(nR / Y) è infinito.

17. Nell'esperimento delle palline e dell'urna, seleziona campionamento senza reinserimento e poni N = 100, R = 60 e n = 30. Simula 100 replicazioni, aggiornando ogni volta. Per ciascuna replicazione, calcola nR / Y, stima di N. Fai la media delle stime e confrontala con N.

Per un approccio diverso alla stima di N, vedi il paragrafo sulle statistiche d'ordine.

Estrazioni con reinserimento

Supponiamo ora che il campionamento sia con reinserimento, anche se ciò è poco realistico in molte applicazioni pratiche. In questo caso, Y ha distribuzione binomiale con parametri n e R / N.

$Esercizio teorico$ 18. Prova che

E(N Y / n) = R.
var(N Y / n) = R (N - R) / n.

Quindi lo stimatore di R con N noto è sempre corretto, ma ha errore quadratico medio maggiore. Pertanto il campionamento senza reinserimento funziona meglio, qualunque siano i valori dei parametri, di quello con reinserimento.