Laboratorio virtuale > Modelli di campionamento finito > 1 2 [3] 4 5 6 7 8 9 10
Supponiamo ancora di avere una popolazione dicotomica D con R unità di tipo 1 e N - R di tipo 2. Come nell'introduzione, estraiamo a caso n unità da D:
X = (X1, X2, ..., Xn), dove Xi appartenente a D è l'i-esima unità estratta.
In molte applicazioni reali, i parametri R o N (o entrambi) possono essere ignoti. In tal caso, si può essere interessati a trarre inferenza dai parametri ignoti basandosi sulle osservazioni di Y, ovvero il numero di unità di tipo 1 nel campione. Assumiamo per iniziare che il campionamento avvenga senza reinserimento, il che è l'ipotesi più realistica nella maggior parte dei casi. Ricordiamo che, in questo caso, Y ha distribuzione ipergeometrica con parametri n, R e N.
Supponiamo che la dimensione della popolazione N sia nota, ma che sia ignoto il numero R di unità di tipo 1. Tale situazione si può presentare, ad esempio, se abbiamo una scatola di N chip di memoria che contengono un numero di unità difettose R. Sarebbe troppo costoso e forse distruttivo sottoporre a test tutti gli N chip, per cui si possono invece selezionare n chip a caso e sottoporli a test.
Un semplice stimatore di R può essere ricavato sperando che la proporzione campionaria di unità di tipo uno sia prossima alla proporzione nella popolazione di unità di tipo 1. Cioè,
Y / n ~ R / N per R ~ N Y / n.
1. Prova che E(N Y / n) = R.
Il risultto dell'esercizio 1 implica che N Y / n è uno stimatore corretto per R. Quindi la varianza è misura della qualità dello stimatore, nel senso della media quadratica.
2. Mostra che var(N Y / n) = R (N - R) (N - n) / [n (N - 1)].
3. Prova che, per dati N e R, l'errore quadratico medio tende a 0 per n che tende a N.
Lo stimatore quindi migliora all'aumentare della dimensione campionaria; tale proprietà è nota come consistenza.
4. Nell'esperimento delle palline nell'urna, seleziona l'estrazione senza reinserimento e poni N = 50, R = 20 e n = 10. Simula 100 replicazioni, aggioranando ogni volta.
5. Supponi che, da una scatola di 100 chip di memoria, se ne estraggano a caso e senza reinserimento 10. I chip vengono provati e 2 risultano difettosi. Stima il numero di chip difettosi nell'intera scatola.
6. Un comune ha 5000 elettori. Supponi che se ne scelgano a caso 100 e che, intervistati, 40 preferiscano il candidato A. Stima il numero di elettori del comune che preferiscono A.
A volte non siamo interessati alla stima di R, ma a determinare se R raggiunge o supera un certo valore critico C. Questa situazione si presenta in particolare per i campioni per accettazione. Supponiamo di avere una popolazione di unità buone o difettose. Se il numero di unità difettose R è maggiore o uguale a C (il valore critico), allora rifiutiamo l'intero lotto. Testare tutte le unità è costoso e distruttivo, per cui dobbiamo testare un campione casuale di n unità (ovviamente estratte senza reinseirmento) e basare la nostra decisione di accettare o rifiutare il lotto sul numero di unità difettose nel campione. Chiaramente, l'unico approccio ragionevole è scegliere un nuovo valore critico c e rifiutare il lotto se il numero di unità difettose nel campione è maggiore o uguale a c. In termini statistici, abbiamo descritto un test di ipotesi.
Nei seguenti esercizi, poni N = 100 e C = 10. Rifiutiamo il lotto di 100 unità se il numero di unità difettose R è 10 o più. Supponiamo di poterci permettere al massimo di verificare n = 10 unità.
Analizziamo in primo luogo il test seguente: Rifiutare il lotto se il numero di unità difettose del campione è almeno 1.
7. Per ciascuno dei seguenti valori di R (il numero "vero" di unità difettose), trova la probabilità di prendere la decisione corretta e quella di prendere la decisione sbagliata:
8. Nell'esperimento delle palline nell'urna, seleziona l'estrazione senza reinserimento e poni N = 100 e n = 10. Per ciascuno dei valori di R proposti nell'esercizio 7, simula 1000 replicazioni, aggiornando ogni 100. Calcola la frequenza relativa dei rifiuti e confrontala con la probabilità trovata nell'esercizio 7.
Analizziamo ora il test seguente: Rifiutare il lotto se il numero di unità difettose del campione è almeno 2.
9. Per ciascuno dei seguenti valori di R (il numero "vero" di unità difettose), trova la probabilità di prendere la decisione corretta e quella di prendere la decisione sbagliata:
10. Nell'esperimento delle palline nell'urna, seleziona l'estrazione senza reinserimento e poni N = 100 e n = 10. Per ciascuno dei valori di R proposti nell'esercizio 9, simula 1000 replicazioni, aggiornando ogni 100. Calcola la frequenza relativa dei rifiuti e confrontala con la probabilità trovata nell'esercizio 9.
11. Dei due test appena visti,
Supponiamo ora che il numero di unità di tipo 1 R sia noto e che la dimensione della popolazione N sia ignota. Come esempio di questo tipo di situazione, supponiamo di avere un lago contenente N pesci, con N ignoto. Catturiamo R pesci, li marchiamo e li ributtiamo nel lago. Poi catturiamo di nuovo n pesci e osserviamo Y, numero di pesci marchiati nel campione. Vogliamo stimare N a partire da questi dati. In questo contesto, il problema della stima è detto a volte problema di cattura-ricattura.
12. Pensi che l'assunzione principale dell'esperimento delle palline e dell'urna, ovvero equiprobabilità dei campioni, sia soddisfatto in un problema reale di cattura e ricattura? Spiega perché.
Di nuovo, possiamo ricavare una stima di N sperando che la proporzione campionaria delle unità di tipo 1 sia prossima alla proporzione della popolazione di unità di tipo 1. Cioè
Y / n ~ R / N per N ~ nR / Y (se Y > 0).
Quindi, il nostro stimatore per N è nR / Y se Y > 0 ed è indefinito se Y = 0.
13. Nell'esperimento delle palline nell'urna, seleziona l'estrazione senza reinserimento e poni N = 80, R = 30 e n = 20. Simula 100 replicazioni, aggiornando ogni volta
14. In un certo lago si catturano 200 pesci, li si marchiano e li si ributtano nel lago. Poi si catturano 100 pesci e si vede che 10 di essi sono marchiati. Stima la popolazione di pesci nel lago.
15. Prova che, se k > 0, allora nR / k massimizza P(Y = k) in funzione di N per dati R e n. Ciò significa che nR / Y è lo stimatore di massima verosimiglianza di N.
16. Usa la disuguaglianza di Jensen per mostrare che E(nR / Y) N.
Lo stimatore è quindi distorto e tende a sovrastimare N. Infatti, se n N - R, per cui P(Y = 0) > 0, E(nR / Y) è infinito.
17. Nell'esperimento delle palline e dell'urna, seleziona campionamento senza reinserimento e poni N = 100, R = 60 e n = 30. Simula 100 replicazioni, aggiornando ogni volta. Per ciascuna replicazione, calcola nR / Y, stima di N. Fai la media delle stime e confrontala con N.
Per un approccio diverso alla stima di N, vedi il paragrafo sulle statistiche d'ordine.
Supponiamo ora che il campionamento sia con reinserimento, anche se ciò è poco realistico in molte applicazioni pratiche. In questo caso, Y ha distribuzione binomiale con parametri n e R / N.
18. Prova che
Quindi lo stimatore di R con N noto è sempre corretto, ma ha errore quadratico medio maggiore. Pertanto il campionamento senza reinserimento funziona meglio, qualunque siano i valori dei parametri, di quello con reinserimento.