Distribuzioni discrete

1. Distribuzioni discrete

Densità discrete

Supponiamo di avere un esperimento casuale con spazio campionario R e misura di probabilità P. Una variabile casuale X relativa all'esperimento che assume valori in un insieme numerabile S si dice avere distribuzione discreta. La funzione di densità di probabilità (discreta) di X è la funzione f da S su R definita da

f(x) = P(X = x) per x appartenente a S.

$Esercizio teorico$ 1. Dimostra che f soddisfa le seguenti proprietà:

f(x) 0 per x in S.
_{x
in}_S f(x) = 1
_{x
in}_A f(x) = P(X A) per A S.

La proprietà (c) è particolarmente importante, poiché mostra che la distribuzione di probabilità di una variabile casuale discreta è completamente individuata dalla sua funzione di densità. Di converso, ogni funzione che soddisfa le proprietà (a) e (b) è una funzione di densità (discreta), per cui la proprietà (c) può essere utilizzata per costruire una distribuzione di probabilità su S. Tecnicamente, f è la densità di X relativa alla misura di conteggio su S.

Normalmente, S è un sottinsieme nunmerabile di qualche insieme più grande, come Rⁿ per qualche n. Possiamo sempre estendere f, se vogliamo, all'insieme più grande definendo f(x) = 0 per x non appartenente a S. A volte questa estensione semplifca le formule e la notazione.

Un elemento x di S che massimizza la densità f è detto moda della distribuzione. Quando la moda è unica, la si usa a volte come centro della distribuzione.

Interpretazione

Una distribuzione di probabilità discreta è equivalente a una distribuzione di massa discreta, con massa totale 1. In questa analogia S è l'insieme (numerabile) dei punti di massa, e f(x) è la massa del punto a x appartenente a S. La proprietà (c) dell'esercizio 1 significa semplicemente che la massa di un insieme A può essere trovata sommando le masse dei punti di A.

Per un'interpretazione probabilistica, supponiamo di creare un nuovo esperimento composto ripetendo all'infinito l'esperimento originale. Nell'esperimento composto, abbiamo delle variabili casuali indipendenti X₁, X₂, ..., ciascuna distribuita come X (si tratta di " copie indipendenti" di X). Per ciascun x appartenente a S, sia

f_n(x) = #{i {1, 2, ..., n}: X_i = x} / n,

la frequenza relativa di x nelle prime n replicazioni (il numero di volte in cui x si è verificato diviso per n). Nota che per ogni x, f_n(x) è una variabile casuale dell'esperimento composto. Per la legge dei grandi numeri, f_n(x) deve convergere a f(x) al crescere di n. La funzione f_n è detta funzione di densità empirica; queste funzioni sono visualizzate in molte delle applet di simulazione che trattano di variabili discrete.

Esempi

$Esercizio teorico$ 2. Supponi di lanciare due dadi equilibrati e di registrare la sequenza di punteggi (X₁, X₂). Trova la funzione di densità di

(X₁, X₂)
Y = X₁ + X₂, somma dei punteggi
U = min{X₁, X₂}, punteggio minimo
V = max{X₁, X₂}, punteggio massimo
(U, V)

3. Nell'esperimento dei dadi, poni n = 2 dadi equilibrati. Seleziona le seguenti variabili casuali e osserva la forma e la posizione della funzione di densità. Simula 1000 replicazioni, aggiornando ogni 10. Per ciascuna delle variabili, osserva la convergenza della funzione di densità empirica alla funzione di densità.

Somma dei punteggi.
Punteggio minimo.
Punteggio massimo.

$Esercizio teorico$ 4. Si estrae a caso un elemento X da un insieme finito S.

Dimostra che X ha funzione di densità di probabilità f(x) = 1 / #(S) per x appartenente a S.
Prova che P(X A) = #(A) / #(S) per A S.

La distribuzione dell'esercizio precedente è detta distribuzione discreta uniforme su S. Molte variabili che si presentano negli esperimenti di campionameto o combinatori sono trasformazioni di variabili con distribuzione uniforme.

$Esercizio teorico$ 5. Supponi di estrarre a caso e senza reinserimento n elementi da un insieme D con N elementi. Sia X la sequenza ordinata di elementi scelti. Spiega perché X è distribuita uniformemente sull'insieme S delle permutazioni di dimensione n scelte da D:

P(X = x) = 1 / (N)_n per ogni x appartenente a S.

$Esercizio teorico$ 6. Supponi di estrarre, senza reinserimento, n elementi da un insieme D con N elementi. Sia W l'insieme non ordinato degli elementi selezionati. Mostra che W è distribuito uniformemente sull'insieme T delle combinazioni di dimensioni n scelte da D:

P(W = w) = 1 / C(N, n) per w appartenente a T.

$Esercizio teorico$ 7. Un'urna contiene N palline; R sono rosse e N - R verdi. Si estrae un campione di n palline (senza reinserimento). Sia Y il numero di palline rosse del campione. Prova che Y ha funzione di densità di probabilità.

P(Y = k) = C(R, k) C(N - R, n - k) / C(N, n) per k = 0, 1, ..., n.

La distribuzione definita dalla funzione di densità dell'esercizio precedente è detta distribuzione ipergeometrica con parametri N, R e n. La distribuzione ipergeometrica è studiata in dettaglio nel capitolo sui modelli di campionamento finiti, che contiene un'ampia varietà di distribuzioni basate sulla distribuzione uniforme discreta.

$Esercizio teorico$ 8. Un'urna contiene 30 palline rosse e 20 verdi. Si estrae a caso un campione di 5 palline. Sia Y il numero di palline rosse del campione.

Calcola esplicitamente la funzione di densità di Y.
Disegna il grafico della funzione di densità e identifica la moda (o le mode).
Trova P(Y > 3).

9. Nell'esperimento della pallina e dell'urna, seleziona il campionamento senza reinserimento. Simula 1000 replicazioni, aggiornando ogni 10, e osserva la convergenza della funzione di densità empirica di Y alla funzione di densità teorica.

$Esercizio teorico$ 10. Una moneta con probabilità di testa p viene lanciata n volte. Per j = 1, ..., n, sia I_j = 1 se il lancio j-esimo è testa e I_j = 0 se il lancio j-esimo è croce. Mostra che (I₁, I₂, ..., I_n) ha funzione di densità di probabilità

f(i₁, i₂, ..., i_n) = p^k(1 - p)^{n - k} per i_j appartenente a {0, 1} per ogni j, dove k = i₁ + i₂ + ··· + i_n.

$Esercizio teorico$ 11. Una moneta con probabilità di testa p viene lanciata n volte. Sia X il numero di teste. Prova che X ha funzione di densità di probabilità

P(X = k) = C(n, k) p^k(1 - p)^{n
- k} per k = 0, 1, ..., n.

La distribuzione definita dalla densità dell'esercizio precedente è detta distribuzione binomiale con parametri n e p. La distribuzione binomiale è analizzata in dettaglio nel capitolo sulle prove Bernoulliane.

$Esercizio teorico$ 12. Supponi di lanciare 5 volte una moneta con probabilità di testa p = 0.4. Sia X il numero di teste.

Calcola esplicitamente la funzione di densità X.
Disegna il grafico della funzione di densità e trova la moda.
Trova P(X > 3).

13. Nell'esperimento della moneta, poni n = 5 e p = 0.4. Simula 1000 replicazione, aggiornando ogni 10, e osserva la convergenza della funzione di densità empirica di X alla funzione di densità.

$Esercizio teorico$ 14. Sia f_t(n) = exp(-t) tⁿ / n! per n = 0, 1, 2, ..., dove t > 0 è un parametro.

Prova che f_t è una funzione di densità di probabilità per ogni t > 0.
Prova che f_t(n) > f_t(n - 1) se e solo se n < t.
Prova che la moda è a floor(t) se t non è intero, e a t - e t se t è intero.

La distribuzione definita dalla densità dell'esercizio precedente è la distribuzione di Poisson con parametro t, che prende il nome da Simeon Poisson. La distribuzione di Poisson è analizzata in dettaglio nel capitolo sui processi di Poisson, e si utilizza per modellare il numero di "punti casuali" in una regione di tempo o di spazio. Il parametro t è proporzionale alla dimensione della regione di tempo o spazio.

$Esercizio teorico$ 15. Supponi che il numero di errori di battitura N di una pagina web abbia distribuzione di Poisson con parametro 2.5.

Trova la moda.
Trova P(N > 4).

16. Nel processo di Poisson, seleziona come parametro 2.5. Simula 1000 replicazioni aggiornando ogni 10 e osserva la convergenza della funzione di densità empirica a quella teorica.

$Esercizio teorico$ 17. Nell'esperimento dado-moneta, si lancia un dado equilibrato e poi si lancia una moneta bilanciata il numero di volte indicato dal dado. Sia I la sequenza di esiti della moneta (0 croce, 1 testa). Trova la densità di I (nota che I assume valori in un insieme di sequenze di lunghezza variabile).

La costruzione delle densità

$Esercizio teorico$ 18. Supponi che g sia una funzione non negativa definita su un insieme numerabile S e che

c = _{x
in}_S g(x).

Mostra che se c è positivo e finito, allora f(x) = g(x) / c per x appartenente a S definisce una funzione di densità discreta su S.

La costante c dell'esercizio precedente è detta a volte costante di normalizzazione. Questo risultato è utile per costruire funzioni di densità con le proprietà funzionali desiderate (dominio, forma, simmetria, e così via).

$Esercizio teorico$ 19. Sia g(x) = x² per x appartenente a {-2, -1, 0, 1, 2}.

Trova la funzione di densità di probabilità f proporzionale a g.
Disegna il grafico della funzione di densità e identifica le mode.
Trova P(X {-1, 1, 2}) dove X è una variabile casuale con la densità riportata in (a).

$Esercizio teorico$ 20. Sia g(n) = qⁿ per n = 0, 1, 2, ... dove q è un parametro nell'intervallo (0,1).

Trova la funzione di densità di probabilità f proporzionale a g.
Trova P(X < 2) dove X è una variabile casuale con la densità riportata in (a).
Trova la probabilità che X sia pari.

La distribuzione costruita nell'esercizio precedente è una versione della distribuzione geometrica, ed è studiata in dettaglio nel capitolo sulle prove Bernoulliane.

$Esercizio teorico$ 21. Sia g(x, y) = x + y per (x, y) {0, 1, 2}².

Trova la funzione di densità di probabilità f proporzionale a g.
Trova la moda della distribuzione.
Trova P(X > Y) dove (X, Y) è un vettore aleatorio con la densità di (a).

$Esercizio teorico$ 22. Sia g(x, y) = xy per (x, y) {(1, 1), (1, 2), (1, 3), (2, 2), (2, 3), (3, 3)}.

Trova la funzione di densità di probabilità f proporzionale a g.
Trova la moda della distribuzione.
Trova P([(X, Y) {(1, 2), (1, 3), (2, 2), (2, 3)}] dove (X, Y) è un vettore aleatorio con la densità di (a).

Densità condizionate

La funzione di densità di una variabile casuale X si basa, ovviamente, sulla misura di probabilità sottostante P sullo spazio campionario R dell'esperimento. Questa misura può esere una misura di probabilità condizionata, dato un certo evento E (con P(E) > 0). La notazione consueta è

f(x | E) = P(X = x | E) per x appartenente a S.

L'esercizio seguente mostra che, a parte la notazione, non si tratta di concetti nuovi. Quindi, tutti i risultati che valgono per le densità in generale hanno risultati analoghi per le densità condizionate.

$Esercizio teorico$ 23. Mostra che, come funzione di x per dato E, f(x | E) è una funzione di densità discreta. Mostra cioè che soddisfa le proprietà (a) e (b) dell'esercizio 2, e che la proprietà (c) diventa

P(X A | E) = _x
in_A f(x | E) per A S.

$Esercizio teorico$ 24. Supponi che B S e P(X B) > 0. Mostra che la densità condizionata di X dato X B è

f(x | X B) = f(x) / P(X B) per x B.
f(x | X B) = 0 se x B^c.

$Esercizio teorico$ 25. Supponi che X sia distribuita uniformemente su un insieme finito S e che B sia un sottinsieme non vuoto di S. Prova che la distribuzione condizionata di X dato X B è uniforme su B.

$Esercizio teorico$ 26. Supponi che X abbia funzione di densità di probabilità f(x) = x² / 10 per x = -2, -1, 0, 1, 2. Trova la densità condizionata di X dato X > 0.

$Esercizio teorico$ 27. Si lanciano due dadi equilibrati. Sia Y la somma dei punteggi e U il punteggio minimo. Trova la densità condizionata di U dato Y = 8.

28. Replica 200 volte l'esperimento dei dadi, aggiornando ogni volta. Calcola la densità empirica condizionata di U dato Y = 8 e confrontala con la densità condizionata dell'ultimo esercizio.

La legge delle probabilità totali e il teorema di Bayes

Supponi che X sia una variabile casuale discreta a valori in un insieme numerabile S, e che B sia un evento dell'esperimento (ovvero, un sottinsieme dello spazio campionario sottostante R).

$Esercizio teorico$ 29. Prova la legge delle probabilità totali:

P(B) = _x
in_S P(X = x) P(B | X = x).

Questo risultato è utile, ovviamente, quando la distribuzione di X e la probabilità condizionata di B dati i valori di X sono noti. A volte si dice condizionare a X.

$Esercizio teorico$ 30. Prova il teorema di Bayes, chiamato così in onore di Thomas Bayes:

P(X = x | B) = P(X = x) P(B | X = x) / _{y
in}_SP(X = y) P(B | X = y) per x appartenente a S.

Il teorema di Bayes è una formula per calcolare la densità condizionata di X dato B. Così come per la legge delle probabilità totali, è utile quando le quantità al membro di destra sono note. La distribuzione (non condizionata) di X si dice distribuzione a priori e la densità condizionata come distribuzione a posteriori.

$Esercizio teorico$ 31. Nell'esperimento dado-moneta, si lancia un dado equilibrato e poi si lancia una moneta bilanciata il numero di volte indicato dal dado

Trova la probabilità di avere esattamente due teste.
Sapendo che sono uscite due teste, trova la densità condizionata del punteggio del dado.

32. Replica l'esperimento dado-moneta 200 volte, aggiornando ogni volta.

Calcola la probabilità empirica di avere esattamente due teste e confrontala con la probabilità dell'esercizio precedente.
Calcolca la densità condizionata empirica del punteggio del dado sapendo che sono uscite esattamente due teste e confrontalo con la densità condizionata teorica dell'esercizio precedente.

$Esercizio teorico$ 33. Supponi che un sacchetto contenga 12 monete: 5 bilanciate, 4 sbilanciate con probabilità di testa 1/3 e 3 a due teste. Si sceglie a caso una moneta e la si lancia due volte.

Trova la probabilità di avere esattamente due teste.
Sapendo che sono uscite due teste, trova la densità condizionata del tipo di moneta.

Confronta gli esercizi 31 e 33. Nell'esercizio 31, si lancia una moneta con probabilità di testa data un numero casuale di volte. Nell'esercizio 33, si lancia una moneta con probabilità casuale di testa un numero dato di volte.

$Esercizio teorico$ 34. Nell'esperimento moneta-dado, si lancia una moneta equilibrata. Se esce croce, si lancia un dado equilibrato. Se esce testa, si lancia un dado piatto uno-sei (1 e 6 hanno probabilità 1/4, mentre 2, 3, 4 e 5 hanno probabilità 1/8). Trova la funzione di densità del punteggio del dado.

35. Replica l'esperimento moneta-dado 1000 volte, aggiornando ogni 10. confronta la densità empirica del punteggio del dado con la densità teorica dell'esercizio precedente.

$Esercizio teorico$ 36. Una fabbrica ha 3 linee produttive per dei chip di memoria. La linea 1 produce il 50% dei chip, di cui il 4% sono difettosi, la linea 2 il 30% dei chip, di cui il 5% sono difettosi, e la linea 3 il 20% dei chip, di cui l'1% sono difettosi. Si sceglie un chip a caso.

Trova la probabilità che il chip sia difettoso.
Sapendo che il chip è difettoso, trova la densità condizionata della linea produttiva da cui il chip è uscito.

Esercizi numerici

37. Sui dati M&Ms, sia R il numero di pastiglie rosse e N il numero totale di pastiglie. Calcola e disegna le densità empiriche di

R
N
R dato N > 57.

38. Nei dati sulla cicala, sia G il sesso, S la specie e W il peso corporeo (in grammi). Calcola la densità empirica di

G
S
(G, S)
G dato W > 0.20 grammi.