Laboratorio virtuale > Modelli di campionamento finito > 1 2 3 4 5 6 7 8 [9] 10

9. Il problema del collezionista


Concetti preliminari

L'esperimento casuale consiste nel campionare ripetutamente, con reinserimento, dalla popolazione D = {1, 2, ..., N}. Si genera così una sequenza di variabili casuali indipendenti, ciascuna con distribuzione uniforme su D:

X1, X2, X3, ...

Interpretiamo questo tipo di campionamento come una collezione di figurine: ogni volta che il collezionista compra un certo prodotto (gomme da masticare o cereali, per esempio), riceve una figurina o un giocattolo, equiprobabilmente uno degli N tipi. Quindi, in questo contesto, Xi è il tipo di figurina che si trova all'i-esimo acquisto.

Sia VN, n il numero di valori distinti nelle prime n estrazioni, cioè la variabile casuale che abbiamo visto nel paragrafo precedente. In questo paragrafo ci interessiamo alla dimensione campionaria necessaria per avere k valori distinti:

WN, k = min{n: VN, n = k}, k = 1, 2, ..., N.

In termini del collezionista, tale variabile casuale indica il numero di acquisti necessari per avere k tipi di figurine diverse. Notiamo che i valori possibili di WN, k sono k, k + 1, k + 2, .... Siamo particolarmente interessati a WN,N, cioè la dimensione campionaria necessaria per ottenere l'intera popolazione. In termini del collezionista, ciò rappresenta il numero di prodotti necessario per avere l'insieme completo di figurine.

Simulazione 1. Nell'esperimento del collezionista, poni N = 50 e modifica k. Osserva forma e posizione del grafico di densità. Con k = 20, esegui l'esperimento passo per passo un paio di volte e osserva i risultati. Simula poi 1000 replicazioni, aggiornando ogni 10, e osserva la convergenza delle frequenze relative alla distribuzione "vera".

La funzione di densità

Troviamo ora la distribuzione di WN, k. Ci saranno d'aiuto i risultti del paragrafo precedente

Esercizio teorico 2. Dimostra che

WN, k = n se e solo se VN, n - 1 = k - 1 and VN, n = k.

Esercizio teorico 3. Usa l'esercizio 2 e la probabilità condizionata per provare che

P(WN, k = n) = P(VN, n - 1 = k - 1)(N - k + 1) / N.

Esercizio teorico 4. Usa il risultato dell'esercizio precedente e la distribuzione di VN, n - 1 individuata nel paragrafo precedente per mostrare che n = k, k + 1, ...,

P(WN,k = n) = C(N - 1, k - 1) sommatoriaj = 0, ..., k - 1 (-1)j C(k - 1, j)[(k - 1 - j) / N]n - 1.

Simulazione 5. Nell'esperimento del collezionista, poni N = 100 e modifica k. Osserva forma e posizione del grafico di densità. Con k = 50, esegui l'esperimento passo per passo un paio di volte e osserva i risultati. Simula poi 1000 replicazioni, aggiornando ogni 10, e osserva la convergenza delle frequenze relative alla funzione di densità.

Esercizio teorico 6. Supponi che dei soggetti vengano selezionati a caso finché non si ottengono 10 distinte settimane di nascita. Trova la probabilità che si estraggano al più 12 persone.

Esercizio teorico 7. Supponi di lanciare un dado equilibrato finché non sono usciti tutti e 6 i punteggi. Trova la probabilità di tirare meno di 10 volte.

Esercizio teorico 8. Le scatole di una certa marca di cereali contengono un pupazzo di 10 tipi diversi. Trova la probabilità di trovarli tutti acquistando al più 15 scatole.

Momenti

Mostreremo ora come WN, k possa essere scompsta in una somma di k variabili indipendenti e con distribuzione geometrica. Ciò spiega meglio la natura della distribuzione e rende più semplice il calcolo di media e varianza.

Per i = 1, 2, ... N, sia Zi il numero di valori campionari necessari per passare da i - 1 a i valori distinti.

Esercizio teorico 9. Dimostra che

  1. Z1, Z2, ..., ZN sono indipendenti.
  2. Zi ha distribuzione geometrica con parametro pi = (N - i + 1) / N.
  3. WN, k = Z1 + Z2 + ··· + Zk.

L'esercizio 9 mostra che, una volta ottenuta una figurina, diventa più difficile ottenere la seguente.

Simulazione 10. Nell'esperimento del collezionista, poni N = 50 e modifica k. Osserva forma e posizione del grafico di densità. Con k = 25, esegui l'esperimento passo per passo un paio di volte e osserva i risultati. Simula poi 1000 replicazioni, aggiornando ogni 10, e osserva la convergenza delle statistiche campionarie ai parametri della distribuzione.

Esercizio teorico 11. Usa il risultato dell'esercizio 9 per mostrare che

  1. E(WN, k) = sommatoriai = 1, ..., k N / (N - i + 1).
  2. var(WN, k) = sommatoriai = 1, ..., k (i - 1)N / (N - i + 1)2.

Esercizio teorico 12. Calcola media e deviazione standard del numero di persone che devono essere scelte per avere 10 settimane di nascita distinte.

Esercizio teorico 13. Calcola media e deviazione standard del numero di volte che un dado dev'essere lanciato per avere tutti e sei i punteggi.

Esercizio teorico 14. Le scatole di una certa marca di cereali contengono un pupazzetto di 10 tipi diversi. Trova media e deviazione standard del numero di scatole che si devono acquistare per avere la collezione completa di pupazzi.

Esercizio teorico 15. Calcola media e deviazione standard del numero di persone che devono essere scelte per avere compleanni tutti e 365 i giorni dell'anno.

Simulazione 16. Nell'esperimento del collezionista, poni N = 10 e modifica k. Osserva forma e posizione del grafico di densità. Con k = 10, esegui l'esperimento passo per passo un paio di volte e osserva i risultati. Simula poi 1000 replicazioni, aggiornando ogni 10, e osserva la convergenza delle statistiche campionarie ai parametri della distribuzione.

Esercizio teorico 17. Usa il risultato dell'esercizio 9 per mostrare che la funzione generatrice di probabilità di WN, k è

GN, k(t) = tkproducti = 1, ..., k [N - (i - 1)] / [N - (i - 1)t] for |t| < N / (k - 1).

Relazione ricorsiva

Un approccio alternativo alla distribuzione della dimensione campionaria necessaria per avere k valori distinti è tramite una formula ricorsiva.

Esercizio teorico 18. Sia cN, k(n) = P(WN, k = n) per n = k, k + 1, .... Usa la probabilità condizionata per mostrare che

cN, k(n + 1) = [(k - 1) / N]cN, k(n) + [(N - k + 1) / N]cN, k - 1(n).