Laboratorio virtuale > Modelli di campionamento finito > 1 2 3 [4] 5 6 7 8 9 10

4. La distribuzione ipergeometrica multivariata


Supponiamo ora di avere una popolazione di più tipi, in cui ciascuna unità è di uno dei k tipi. Per esempio, possiamo avere un'urna con palline di diversi tipi, o una popolazione di elettori che possono essere democratici, repubblicani o indipendenti. Sia Di il sottinsieme di tutte le unità di tipo i e sia Ni il numero di unità di tipo i, per i = 1, 2, ..., k. Quindi

D = D1 unione D2 unione ··· unioneDk e N = N1 + N2 + ··· + Nk.

Il modello dicotomico considerato in precedenza è ovviamente un caso particolare con k = 2. Come nel modello di campionamento semplice, estraiamo a caso n unità da D:

X = (X1, X2, ..., Xn), dove Xi appartenente a D è l'i-esima unità estratta.

Sia ora Yi il numero di unità di tipo i nel campione, per i = 1, 2, ..., k. Notiamo che

Y1 + Y2 + ··· + Yk = n,

per cui se conosciamo i valori di k - 1 delle variabili conteggio, possiamo trovare il valore della rimanente. Così come avviene per le altre variabili di conteggio, possiamo esprimere Yi come somma di variabili indicatore:

Mathematical Exercise 1. Prova che Yi = Ii1 + Ii2 + ··· + Iin dove Iij = 1 se Xj appartiene a Di e Iij = 0 altrimenti.

Per iniziare, possiamo assumere che le estrazioni avvengano senza reinserimento, poiché si tratta del caso più realistico nella maggior parte delle applicazioni.

Distribuzioni

Per ricavare la densità congiunta delle variabili di conteggio si possono usare semplici risultati di calcolo combinatorio. Ricordiamo che, poiché si estrae senza reinserimento, il campione non ordinato è distribuito uniformemente sulle conbinazioni di dimensione n estratte da D.

Esercizio teorico 2. Mostra che, per interi nonnegativi j1, j2, ..., jk con j1 + j2 + ··· + jk = n,

P(Y1 = j1, Y2 = j2, ..., Yk = jk) = C(N1, j1)C(N2, j2) ··· C(Nk, jk) / C(N, n).

La distribuzione di (Y1, Y2, ..., Yk) è detta distribuzione ipergeometrica multivariata con parametri N, N1, N2, ..., Nk e n. Si dice anche che (Y1, Y2, ..., Yk - 1) ha tale distribuzione (ricordiamo di nuovo che k - 1 valori qualsiasi delle variabili individuano il valore della restante). Di solito è evidente dal contesto of quale significato dare a ciò. La distribuzione ipergeometrica ordinaria corrisponde a k = 2.

Esercizio teorico 3. Ricava la seguente formula alternativa della densità ipergeometrica multivariata in due modi: combinatorialmente, considerando il campione ordinato distribuito uniformemente sulle permutazioni di dimensione n estratte da D, e algebricamente, a partire dal risultato dell'esercizio 2.

P(Y1 = j1, Y2 = j2, ..., Yk = jk) = C(n; j1, j2, ..., jk) (N1)j1(N2)j2··· (Nk)jk / (N)n.

Esercizio teorico 4. Prova che Yi ha distribuzione ipergeometrica con parametri N, Ni e n:

P(Yi = j) = C(Ni, j)C(N - Ni, n - j) / C(N, n) per j = 0, 1, ..., n.

La distribuzione ipergeometrica multivariata permane sotto combinazioni delle variabili di conteggio. In particolare, supponiamo che A1, A2, ..., Al sia una partizione dell'insieme degli indici {1, 2, ..., k} in sottinsiemi non vuoti. Per ogni j, sia Wj la somma degli Yi sugli i in Aj e sia Mj la somma degli Ni sugli i in Aj.

Esercizio teorico 5. Mostra che (W1, W2, ..., Wl) ha distribuzione ipergeometrica multivariata con parametri N, M1, M2, ..., Ml e n.

La distribuzione ipergeometrica multivariata permane anche quando alcune delle variabili di conteggio sono note. In particolare, supponiamo che A, B sia una partizione dell'insieme di indici {1, 2, ..., k} in sottinsiemi non vuoti. Supponiamo di osservare Yj = yj per j appartenente a B. Sia z la somma degli yj sui j in B e sia M la somma degli Ni sugli i in A.

Esercizio teorico 6. Mostra che la distribuzione condizionata degli Yi, per i appartenenti ad A dati Yj = yj, per j appartenenti a B è ipergeometrica multivariata con parametri M, Ni, per i appartenente ad A e n - z.

Combinando i risultati degli esercizi 5 e 6 si possono calcolare le distribuzioni marginali o condizionate delle variabili di conteggio.

Momenti

Vediamo ora come calcolare media, varianza, covarianza e correlazione delle variabili di conteggio. Gli strumenti principali che utilizzeremo sono i risultati relativi alla distribuzione ipergeometrica univariata e la rappresentazione in termini di variabili indicatore.

Esercizio teorico 7. Mostra che

  1. E(Yi) = n Ni / N
  2. var(Yi) = n (Ni / N)(1 - Ni / N) (N - n) / (N - 1)

Esercizio teorico 8. Supponi che i e j siano distinti. Prova che

  1. cov(Iir, Ijr) = -NiNj / N2 per r = 1, 2, ..., n.
  2. cov(Iir, Ijs) = -NiNj / [N2(N - 1)] per distinti r, s = 1, 2, ..., n.

Esercizio teorico 9. Supponi che i e j siano distinti. Prova che

  1. cor(Iir, Ijr) = -{NiNj / [(N - Ni)(N - Nj)]}1/2 per r = 1, 2, ..., n.
  2. cor(Iir, Ijs) = {NiNj / [(N - Ni)(N - Nj)]}1/2 [1 / (N - 1)] per distinti r, s = 1, 2, ..., n.

In particolare, Iir, Ijr sono negativamente correlati per i e j distnti e per qualsiasi valore di r e s. Ti sembra ragionevole?

Esercizio teorico 10. Usa il risultato degli esercizi 7 e 8 per mostrare che, per i e j distinti,

  1. cov(Yi, Yj) = -(nNiNj / N2)[(N - n) / (N - 1)]
  2. cor(Yi, Yj) = -{NiNj / [(N - Ni)(N - Nj)]}1/2.

Estrazioni con reinserimento

Supponiamo ora che le estrazioni avvengano con reinserimento, anche se questa assunzione è spesso poco realistica nelle applicazioni reali.

Esercizio teorico 11. Mostra che il tipo di unità del campione forma una sequenza di n prove multinomiali con parametri N1 / N, N2 / N, ..., Nk / N.

I seguenti risultati discendono immediatamente dalla teoria generale delle prove multinomiali, anche se si possono usare dimostrazioni diverse.

Esercizio teorico 12. Prova che (Y1, Y2, ..., Yk) ha distribuzione multinomiale con parametri n e N1 / N, N2 / N, ..., Nk / N: per interi non negativi j1, j2, ..., jk con j1 + j2 + ··· + jk = n,

P(Y1 = j1, Y2 = j2, ..., Yk = jk) = C(n; j1, j2, ..., jk) N1j1N2j2··· Nkjk / Nn.

Esercizio teorico 13. Mostra che

  1. E(Yi) = n Ni / N.
  2. var(Yi) = n (Ni / N)(1 - Ni / N).
  3. cov(Yi, Yj) = -(nNiNj / N2) per i e j distinti.
  4. cor(Yi, Yj) = -{NiNj / [(N - Ni)(N - Nj)]}1/2 per i e j distinti.

Convergenza dell'ipergeometrica multivariata alla multinomiale

Supponiamo che la dimensione della popolazione N sia molto grande rispetto alla dimensione del campione n. In questo caso, sembra ragionevole che il campionamento senza reinserimento non sia troppo diverso da quello con reinserimento, e che quindi la distribuzione ipergeometrica multivariata possa essere approssimata con la multinomiale. L'esercizio seguente precisa meglio questa osservazione. Si tratta di un risultato molto utile nella pratica, poiché in molti casi non si conosce con precisione l'ampiezza della popolazione.

Esercizio teorico 14. Supponi che Ni dipenda da N e che

Ni / N converge a pi in [0, 1] per N converge a infinito for i = 1, 2, ..., k.

Prova che, per dato n, la funzione di densità ipergeometrica multivariata con parametri N, N1, N2, ..., Nk, e n converge alla funzione di densità multinomiale con parametri n e p1, p2..., pk. Suggerimento: Usa la rappresentazione dell'esercizio 3.

Problemi computazionali

Esercizio teorico 15. Supponi che si estragga casualmente da un mazzo standard di 52 carte una mano di bridge (13 carte). Trova la probabilità che la mano contenga

  1. 4 carte di cuori.
  2. 4 carte di cuori e 3 di picche.
  3. 4 carte di cuori, 3 di picche e 2 di fiori
  4. 7 carte rosse e 6 carte nere.

Esercizio teorico 16. Supponi che si estragga casualmente da un mazzo standard di 52 carte una mano di bridge (13 carte). Trova

  1. Media e varianza del numero di carte di cuori.
  2. Covarianza tra numero di carte di cuori e di picche.
  3. Correlazione tra numero di carte di cuori e di picche.

Esercizio teorico 17. Una popolazione di 100 elettori è formata da 40 repubblicani, 35 democratici e 25 indipendenti. Si estrae un campione di 10 elettori

  1. Trova la probabilità che il campione contenga almeno 4 repubblicani, 3 democratici e 2 indipendenti.
  2. Trova l'approssimazione multinomiale alla probabilità in (a).

Esercizio teorico 18. Supponi che si estragga casualmente da un mazzo standard di 52 carte una mano di bridge (13 carte). Trova la probabilità condizionata che la mano contenga

  1. 4 cuori e 3 picche dati 4 fiori.
  2. 4 cuori dati 3 picche e 2 fiori.

Vuoti

Nell'esperimento delle carte, una mano che non contiene carte di un certo seme è detta vuota in tale seme.

Esercizio teorico 19. Usa la regola di inclusione-esclusione per mostrare che la probabilità che una mano di poker sia vuota in almeno un seme è

1913496 / 2598960 ~ 0.736.

Simulazione 20. Nell'esperimento delle carte, poni n = 5. Simula 1000 replicazioni, aggiornando ogni volta. Calcola la frequenza relativa dell'evento in cui la mano sia vuota in almeno un seme e confrontala con la probabilità trovata nell'esercizio 10.

Esercizio teorico 21. Usa la regola di inclusione-esclusione per mostrare che la probabilità che una mano di bridge sia vuoa in almeno un seme è

32427298180 / 635013559600 ~ 0.051.