Laboratorio virtuale > Prove Bernoulliane > 1 2 3 4 5 [6] 7

6. La distribuzione multinomiale


Prove multinomiali

Un processo di prove multinomiali è una successione di variabili casuali indipendenti e identicamente distribuite

U1, U2, ...,

ciascuna suscettibile di assumere k possibili valori. Pertanto il processo di prove multinomiali è una semplice generalizzazione del processo di prove Bernoulliane (che corrisponde al caso k = 2). Per semplicità indicheremo gli esiti con gli interi 1, 2, ..., k. La funzione di densità comune alle variabili della prova è

pi = P(Uj = i) per i = 1, 2, ..., k (e per ogni j).

Ovviamente pi > 0 per ogni i e p1 + p2 + ··· + pk = 1.

Analogamente al caso della distribuzione binomiale, siamo interessati alle variabili che indicano il numero di volte in cui ciascun esito si è verificato. Sia

Zi = #{j {1, 2, ..., n}: Uj = i} per i = 1, 2, ..., k

(per semplicità omettiamo la dipendenza da n). Notiamo che

Z1 + Z2 + ··· + Zk = n,

per cui se conosciamo i valori di k - 1 delle variabili di conteggio, possiamo trovare il valore della rimanente. Così come per ogni altra variabile di conteggio, possiamo esprimere Zi come somma di variabili indicatore:

Esercizio teorico 1. Prova che Zi = Ii1 + Ii2 + ··· + Iin dove Iij = 1 if Uj = i e Zij = 0 altrimenti.

Distribuzioni

Per ricavare le distribuzioni congiunte, marginali e condizionate delle variabili conteggio possiamo utilizzare alcuni semplici strumenti di indipendenza e calcolo combinatorio. In particolare, ricordiamo la definizione di coefficiente multinomiale

C(n; j1, j2, ..., jk) = n! / (j1! j2! ··· jk!) per interi positivi j1, j2, ..., jk con j1 + j2 + ··· + jk = n.

Esercizio teorico 2. Prova che per interi positivi j1, j2, ..., jk con j1 + j2 + ··· + jk = n,

P(Z1 = j1, Z2 = j2, ..., Zk = jk) = C(n; j1, j2, ..., jk) p1j1 p2j2 ··· pkjk.

La distribuzione di (Z1, Z2, ..., Zk) è detta distribuzione multinomiale con parametri n e p1, p2, ..., pk.

Diciamo inoltre che (Z1, Z2, ..., Zk-1) ha tale distribuzione (ricorda che i valori di k - 1 delle variabili di conteggio determinano il valore della rimanente). Di solito è chiaro dal contesto il senso in cui si intende il termine distribuzione multinomiale. Di nuovo, la semplice distribuzione binomiale corrisponde a k = 2.

Esercizio teorico 3. Prova che Zi ha distribuzione binomiale con parametri n e pi:

P(Zi = j) = C(n, j) pij (1 - pi)n - j for j = 0, 1, ..., n

La distribuzione multinomiale è preservata dalla combinazione delle variabili di conteggio. In particolare, supponiamo che A1, A2, ..., Am sia una partizione dell'insieme di indici {1, 2, ..., k} in sottinsiemi non vuoti. Per ciascun j, sia Wj la somma degli Zi sugli i in Aj, e sia qj la somma dei pi sugli i in Aj.

Esercizio teorico 4. Mostra che (W1, W2, ..., Wm) ha distribuzione multinomiale con parametri n e q1, q2, ..., qm.

La distribuzione multinomiale rimane anche quando alcune delle variabili di conteggio sono osservate. In particolare, supponiamo che A, B sia una partizione dell'insieme di indici {1, 2, ..., k} in sottinsiemi non vuoti. Supponiamo di osservare Zj = zj per j appartenente a B. Sia z la somma degli zj sugli j appartenenti a B, e sia p la somma dei pi sugli i appartenenti a A.

Esercizio teorico 5. Mostra che la distribuzione condizionata di Zi, i appartenente a A dato Zj = zj, j appartenente a B è multinomiale con parametri n - z e pi / p per i appartenente a A.

Combinazioni dei risultati degli esercizi 5 e 6 possono essere utilizzate per calcolare qualunque distribuzione marginale o condizionata.

Simulazione 6. Nell'esperimento dei dadi, seleziona il numero di uno. Per ciascuna distribuzione del dado, inizia con un dado e aggiungine uno ogni volta, osservando la forma della funzione di densità. Quando arrivi a 10 dadi, esegui la simulazione, aggiornando ogni 10 replicazioni. Osserva la convergenza delle frequenze relative alla funzione di densità.

Momenti

Calcoliamo ora media, varianza, covarianza e correlazione delle variabili di conteggio, utilizzando i risultati relativi alla binomiale e la rappresentazione in termini di variabili indicatore.

Esercizio teorico 7. Prova che

  1. E(Zi) = npi.
  2. var(Zi) = npi(1 - pi).

Esercizio teorico 8. Mostra che, per i e j distinti,

  1. cov(Zi, Zj) = -n pi pj.
  2. cor(Zi, Zj) = - {pi pj / [(1 - pi)(1 - pj)]}1/2.

Dall'esercizio 8, nota che il numero di volte che si verifica l'esito i e il numero di volte che si verifica l'esito j sono negativamente correlati, ma la correlazione non dipende da n o k. Ti sembra ragionevole?

Esercizio teorico 9. Usa il risultato dell'esercizio 8 per mostrare che, se k = 2, allora il numero di volte che si verifica il risultato 1 e il numero di volte che si verifica l'esito 2 sono perfettamente correlati. Ti sembra ragionevole?

Simulazione 10. Nell'esperimento dei dadi, seleziona il numero di uno. Per ciascuna distribuzione del dado, inizia con un dado e aggiungine uno ogni volta, osservando la dimensione e la posizione della barra media/deviazione standard. Quando arrivi a 10 dadi, esegui la simulazione, aggiornando ogni 10 replicazioni. Osserva la convergenza dei momenti empirici ai momenti teorici.

Problemi computazionali

Esercizio teorico 11. Supponi di lanciare 10 dadi equilibrati. Trova la probabilità che

  1. I punteggi 1 e 6 si verifichino una volta ciascuno e gli altri punteggi due volte ciascuno.
  2. I punteggi 2 e 4 si presentino 3 volte ciascuno.
  3. Ci siano 4 punteggi pari e 6 punteggi dispari.
  4. I punteggi 1 e 3 si presentino due volte ciascuno sapendo che il punteggio 2 si presenta una volta e il 5 tre volte.

Esercizio teorico 12. Supponi di lanciare 4 dadi piatti uno-sei (le facce 1 e 6 hanno probabilità 1/4 ciascuna e le facce 2, 3, 4 e 5 hanno probabilità 1/8 ciascuna). Trova la funzione di densità congiunta del numero di volte in cui ogni punteggio si verifica.

Simulazione 13. Nell'esperimento dei dadi, seleziona 4 dadi piatti uno-sei. Simula 500 replicazioni, aggiornando ogni volta. Calcola la funzione di frequenza relativa congiunta del numero di volte che ciascun punteggio si presenta. Confronta la funzione di frequenza relativa con la funzione di densità teorica.

Esercizio teorico 14. Supponi di lanciare 20 dadi piatti uno-sei. Trova covarianza e correlazione del numero di uno e due.

Simulazione 15. Nell'esperimento dei dadi, seleziona 20 dadi piatti uno-sei. Simula 500 replicazioni, aggiornando ogni volta. Calcola i valori empirici di covarianza e correlazione del numero di uno e di due. Confronta i risultati coi loro valori teorici trovati nell'esercizio 14.