La distribuzione multinomiale

6. La distribuzione multinomiale

Prove multinomiali

Un processo di prove multinomiali è una successione di variabili casuali indipendenti e identicamente distribuite

U₁, U₂, ...,

ciascuna suscettibile di assumere k possibili valori. Pertanto il processo di prove multinomiali è una semplice generalizzazione del processo di prove Bernoulliane (che corrisponde al caso k = 2). Per semplicità indicheremo gli esiti con gli interi 1, 2, ..., k. La funzione di densità comune alle variabili della prova è

p_i = P(U_j = i) per i = 1, 2, ..., k (e per ogni j).

Ovviamente p_i > 0 per ogni i e p₁ + p₂ + ··· + p_k = 1.

Analogamente al caso della distribuzione binomiale, siamo interessati alle variabili che indicano il numero di volte in cui ciascun esito si è verificato. Sia

Z_i = #{j {1, 2, ..., n}: U_j = i} per i = 1, 2, ..., k

(per semplicità omettiamo la dipendenza da n). Notiamo che

Z₁ + Z₂ + ··· + Z_k = n,

per cui se conosciamo i valori di k - 1 delle variabili di conteggio, possiamo trovare il valore della rimanente. Così come per ogni altra variabile di conteggio, possiamo esprimere Z_i come somma di variabili indicatore:

$Esercizio teorico$ 1. Prova che Z_i = I_i1 + I_i2 + ··· + I_in dove I_ij = 1 if U_j = i e Z_ij = 0 altrimenti.

Distribuzioni

Per ricavare le distribuzioni congiunte, marginali e condizionate delle variabili conteggio possiamo utilizzare alcuni semplici strumenti di indipendenza e calcolo combinatorio. In particolare, ricordiamo la definizione di coefficiente multinomiale

C(n; j₁, j₂, ..., j_k) = n! / (j₁! j₂! ··· j_k!) per interi positivi j₁, j₂, ..., j_k con j₁ + j₂ + ··· + j_k= n.

$Esercizio teorico$ 2. Prova che per interi positivi j₁, j₂, ..., j_k con j₁ + j₂ + ··· + j_k= n,

P(Z₁ = j₁, Z₂ = j₂, ..., Z_k = j_k) = C(n; j₁, j₂, ..., j_k) p₁^j1 p₂^j2 ··· p_k^jk.

La distribuzione di (Z₁, Z₂, ..., Z_k) è detta distribuzione multinomiale con parametri n e p₁, p₂, ..., p_k.

Diciamo inoltre che (Z₁, Z₂, ..., Z_k-1) ha tale distribuzione (ricorda che i valori di k - 1 delle variabili di conteggio determinano il valore della rimanente). Di solito è chiaro dal contesto il senso in cui si intende il termine distribuzione multinomiale. Di nuovo, la semplice distribuzione binomiale corrisponde a k = 2.

$Esercizio teorico$ 3. Prova che Z_i ha distribuzione binomiale con parametri n e p_i:

P(Z_i = j) = C(n, j) p_i^{^j} (1 - p_i)^{n - j} for j = 0, 1, ..., n

La distribuzione multinomiale è preservata dalla combinazione delle variabili di conteggio. In particolare, supponiamo che A₁, A₂, ..., A_m sia una partizione dell'insieme di indici {1, 2, ..., k} in sottinsiemi non vuoti. Per ciascun j, sia W_j la somma degli Z_i sugli i in A_j, e sia q_j la somma dei p_i sugli i in A_j.

$Esercizio teorico$ 4. Mostra che (W₁, W₂, ..., W_m) ha distribuzione multinomiale con parametri n e q₁, q₂, ..., q_m.

La distribuzione multinomiale rimane anche quando alcune delle variabili di conteggio sono osservate. In particolare, supponiamo che A, B sia una partizione dell'insieme di indici {1, 2, ..., k} in sottinsiemi non vuoti. Supponiamo di osservare Z_j = z_j per j appartenente a B. Sia z la somma degli z_j sugli j appartenenti a B, e sia p la somma dei p_i sugli i appartenenti a A.

$Esercizio teorico$ 5. Mostra che la distribuzione condizionata di Z_i, i appartenente a A dato Z_j = z_j, j appartenente a B è multinomiale con parametri n - z e p_i / p per i appartenente a A.

Combinazioni dei risultati degli esercizi 5 e 6 possono essere utilizzate per calcolare qualunque distribuzione marginale o condizionata.

6. Nell'esperimento dei dadi, seleziona il numero di uno. Per ciascuna distribuzione del dado, inizia con un dado e aggiungine uno ogni volta, osservando la forma della funzione di densità. Quando arrivi a 10 dadi, esegui la simulazione, aggiornando ogni 10 replicazioni. Osserva la convergenza delle frequenze relative alla funzione di densità.

Momenti

Calcoliamo ora media, varianza, covarianza e correlazione delle variabili di conteggio, utilizzando i risultati relativi alla binomiale e la rappresentazione in termini di variabili indicatore.

$Esercizio teorico$ 7. Prova che

E(Z_i) = np_i.
var(Z_i) = np_i(1 - p_i).

$Esercizio teorico$ 8. Mostra che, per i e j distinti,

cov(Z_i, Z_j) = -n p_i p_j.
cor(Z_i, Z_j) = - {p_i p_j / [(1 - p_i)(1 - p_j)]}^1/2.

Dall'esercizio 8, nota che il numero di volte che si verifica l'esito i e il numero di volte che si verifica l'esito j sono negativamente correlati, ma la correlazione non dipende da n o k. Ti sembra ragionevole?

$Esercizio teorico$ 9. Usa il risultato dell'esercizio 8 per mostrare che, se k = 2, allora il numero di volte che si verifica il risultato 1 e il numero di volte che si verifica l'esito 2 sono perfettamente correlati. Ti sembra ragionevole?

10. Nell'esperimento dei dadi, seleziona il numero di uno. Per ciascuna distribuzione del dado, inizia con un dado e aggiungine uno ogni volta, osservando la dimensione e la posizione della barra media/deviazione standard. Quando arrivi a 10 dadi, esegui la simulazione, aggiornando ogni 10 replicazioni. Osserva la convergenza dei momenti empirici ai momenti teorici.

Problemi computazionali

$Esercizio teorico$ 11. Supponi di lanciare 10 dadi equilibrati. Trova la probabilità che

I punteggi 1 e 6 si verifichino una volta ciascuno e gli altri punteggi due volte ciascuno.
I punteggi 2 e 4 si presentino 3 volte ciascuno.
Ci siano 4 punteggi pari e 6 punteggi dispari.
I punteggi 1 e 3 si presentino due volte ciascuno sapendo che il punteggio 2 si presenta una volta e il 5 tre volte.

$Esercizio teorico$ 12. Supponi di lanciare 4 dadi piatti uno-sei (le facce 1 e 6 hanno probabilità 1/4 ciascuna e le facce 2, 3, 4 e 5 hanno probabilità 1/8 ciascuna). Trova la funzione di densità congiunta del numero di volte in cui ogni punteggio si verifica.

13. Nell'esperimento dei dadi, seleziona 4 dadi piatti uno-sei. Simula 500 replicazioni, aggiornando ogni volta. Calcola la funzione di frequenza relativa congiunta del numero di volte che ciascun punteggio si presenta. Confronta la funzione di frequenza relativa con la funzione di densità teorica.

$Esercizio teorico$ 14. Supponi di lanciare 20 dadi piatti uno-sei. Trova covarianza e correlazione del numero di uno e due.

15. Nell'esperimento dei dadi, seleziona 20 dadi piatti uno-sei. Simula 500 replicazioni, aggiornando ogni volta. Calcola i valori empirici di covarianza e correlazione del numero di uno e di due. Confronta i risultati coi loro valori teorici trovati nell'esercizio 14.