Misura di probabilità

4. Misura di probabilità

Supponiamo di avere un esperimento casuale con spazio campionario S. La probabilità di un evento è un misura di quanto è plausibile che l'evento si verifichi nell'esecuzione dell'esperimento.

Assiomi

Matematicamente, una misura di probabilità (o distribuzione) P per un esperimento casuale è una funzione a valori reali definita sulla collezione di eventi che soddisfa i seguenti assiomi:

P(A) 0 per ogni evento A.
P(S) = 1
P[_{j
in J} A_j] = _{j
in J} P(A_j) se {A_j: j J} è una collezione numerabile di eventi a due a due disgiunti.

Il terzo assioma è detto della additività numerabile, e afferma che la probabilità dell'unione di una collezione finita o infinita ma numerabile di eventi disgiunti è la somma delle corrispondenti probabilità. Gli assiomi sono detti anche assiomi di Kolmogorov, in onore di Andrey Kolmogorov.

Gli assiomi 1 e 2 rappresentano unicamente una convenzione; scegliamo di misurare la probabilità di un evento con un numero tra 0 e 1 (invece che, ad esempio, con un numero tra -5 e 7). L'assioma 3, invece, è fondamentale e inevitabile. È necessario per la teoria della probabilità per la stessa ragione per cui è necessario per le altre misure di "dimensione" di un insieme, come

cardinalità per insiemi finiti,
lunghezza per sottinsiemi di R,
area per sottinsiemi di R²,
volume per sottinsiemi di R³.

D'altra parte, l'additività non numerabile (l'estensione dell'assioma 3 a un insieme non numerabile di indici J) è irragionevole per la probabilità così come per le altre misure. Per esempio, un intervallo di lunghezza positiva di R è unione di infiniti punti, ciascuno di lunghezza 0.

Abbiamo ora tre ingredienti essenziale per modellare un esperimento casuale:

Lo spazio campionario S,
La sigma algebra degli eventi A,
La misura di probabilità P.

Insieme, questi definiscono uno spazio di probabilità (S, A, P).

La legge dei grandi numeri

Intuitivamente, la probabilità di un evento dovrebbe misurare la frequenza relativa dell'evento a lungo termine. Specificamente, supponiamo di ripetere indefinitamente l'esperimento (osserva che ciò costituisce un nuovo esperimento composto). Per un evento A dell'esperimento base, sia N_n(A) il numero di volte che A si è verificato (la frequenza di A) nelle prime n replicazioni (nota che si tratta di una variabile casuale dell'esperimento composto). Quindi,

P_n(A) = N_n(A) / n

è la frequenza relativa di A nelle prime n replicazioni. Se abbiamo scelto la misura di probabilità corretta per l'esperimento, allora in un certo senso ci aspettiamo che la frequenza relativa di ciascun evento converga alla probabilità dell'evento stesso:

P_n(A) P(A) per n converge a width= .

La formalizzazione di questa intuizione è la legge dei grandi numeri o legge della media, uno dei teoremi più importanti della probabilità. Per sottolineare questo punto, osserviamo che in generale esisteranno molte possibili misure di probabilità per un esperimento che soddisfano gli assiomi. Però, solo la vera misura di probabilità soddisferà la legge dei grandi numeri.

Segue che, se abbiamo dati da n replicazioni dell'esperimento, la frequenza relativa osservata P_n(A) può essere utilizzata come approssimazione di P(A); tale approssimazione è detta probabilità empirica di A.

$Esercizio teorico$ 1. Dimostra che P_n soddisfa gli assiomi di Kolmogorov (sulla base dei dati di n replicazioni dell'esperimento)

La distribuzione di una variabile casuale

Supponiamo che X sia una variabile casuale dell'esperimento, che assume valori in un insieme T.

$Esercizio teorico$ 2. Mostra che P(X B) come funzione di B T, definisce una misura di probabilità su T. Suggerimento: Ricorda che l'immagine inversa preserva tutte le operazioni sugli insiemi.

La misura di probabilità dell'esercizio precedente è detta distribuzione di probabilità di X. Pertanto, ogni variabile casuale X per un esperimento definisce un nuovo spazio di probabilità:

Un insieme di esiti T (i possibili valori di X).
Una collezione di eventi (i sottinsiemi di T).
Una misura di probabilità su questi eventi (la distribuzione di probabilità di X).

Ricordiamo inoltre che l'esito stesso di un esperimento può essere visto come una variabile casuale. In particolare, se assumiamo che X sia la funzione identità su S, allora X è una variabile casuale e

P(X A) = P(A).

Quindi, ogni misura di probabilità può essere vista come distribuzione di una variabile casuale.

Misure

Come facciamo a costruire misure di probabilità? Come abbiamo già brevemente notato poc'anzi, esistono altre misure relative alla "dimensione" degli insiemi; in molti casi esse possono essere convertite in misure di probabilità.

In primo luogo, una misura (non negativa) m su S è una funzione dei sottinsiemi (misurabili) di S che soddisfa gli assiomi 1 e 3 introdotti poc'anzi. In generale, m(A) può essere infinito per un sottinsieme A. Comunque, se m(S) è positivo e finito, m può essere convertita in misura di probabilità.

$Esercizio teorico$ 3. Mostra che, se m è misura su S con m(S) finito e positivo, allora P è una misura di probabilità su S.

P(A) = m(A) / m(S) per A S.

Nel contesto dell'esercizio 3, m(S) è detta costante di normalizzazione. Nelle prossime due sezioni, consideriamo alcuni importanti casi particolari.

Distribuzioni discrete

Supponiamo che S sia un insieme finito e non vuoto. Chiaramente, la misura di conteggio # è una misura finita su S:

#(A) = il numero di elementi di A per A S.

La corrispondente misura di probabilità è detta distribuzione uniforme discreta su S, ed è particolarmente importante negli esperimenti di campionamento e di calcolo combinatorio:

P(A) = #(A) / #(S) per A S.

Possiamo presentare un metodo di costruzione più generale per spazi campionari numerabili che può essere utilizzato per definire varie misure di probabilità.

$Esercizio teorico$ 4. Supponiamo che S sia non vuoto e numerabile e che g sia una funzione non negativa a valori reali definita su S. Mostra che m definito come segue è una misura su S:

m(A) = _{x
in A} g(x) per A S.

Pertanto, se m(S) è finito e positivo, allora P(A) = m(A) / m(S) definisce una misura di probabilità per l'esercizio 3. Distribuzioni di questo tipo si dicono discrete. Le distribuzioni discrete sono studiate in dettaglio nel capitolo sulle distribuzioni.

$Esercizio teorico$ 5. Nel contesto dell'esercizio precedente, prova che, se S è finito e g è una funzione costante, allora la corrispondente misura di probabilità P è la distribuzione uniforme discreta su S.

Distribuzioni continue

Si definisce misura n-dimensionale su Rⁿ (o misura di Lebesgue, in onore di Henri Lebesgue) come

m_n(A) = _{_A}1dx per A Rⁿ.

Nota che se n > 1, l'integrale riportato è multiplo; x = (x₁, x₂, ..., x_n) e dx = dx₁dx₂...dx_n. L'assioma di additività numerabile vale per una proprietà fondamentale degli integrali che non dimostreremo. In particolare, richiamiamo dall'analisi che

m₁(A) è la lunghezza di A per A R.
m₂(A) è l'area di A per A R².
m₃(A) è il volume di A per A R³.

Ora, se S è un sottinsieme di Rⁿ con m_n(S) positivi e finiti, allora

P(A) = m_n(A) / m_n(S)

è una misura di probabilità su S per l'esercizio 2, detta distribuzione uniforme continua su S.

Possiamo generalizzare questo metodo per produrre molte altre distribuzioni. Supponiamo che g sia una funzione non negativa a valori definita su S. Definiamo

m(A) = _{_A}g(x) dx per A S.

Allora m è una misura su S. Quindi, se m(S) è finito e positivo, allora P(A) = m(A) / m(S) definisce una misura di probabilità come nell'esercizio 2. Distribuzioni di questo tipo si dicono continue. Le distribuzioni continue sono studiate in dettaglio nel capitolo sulle distribuzioni.

È importante notare, di nuovo, che, al contrario di molti altri rami della matematica, gli spazi a poche dimensione (n = 1, 2, 3) non hanno un ruolo particolare, a parte quello didattico. Per esempio, sui dati sulla cicala, alcune delle variabili registrate sono peso e lunghezza corporei e lunghezza e larghezza delle ali. Un modello probabilistico per queste variabili definirebbe una distribuzione su un sottinsieme di R⁴.

Regole fondamentali della probabilità

Supponiamo di avere un esperimento casuale con spazio campionario S e misura di probabilità P. Nei seguenti esercizi, A e B sono eventi.

$Esercizio teorico$ 6. Dimostra che P(A^c) = 1 - P(A).

$Esercizio teorico$ 7. Dimostra che P(Ø) = 0.

$Esercizio teorico$ 8. Mostra che P(B A^c) = P(B) - P(A B).

$Esercizio teorico$ 9. Dimostra che se A B allora P(B A^c) = P(B) - P(A).

Ricorda che B A^c è scritto a volte B - A quando A B. Con questa notazione, il risultato dell'esercizio precedente ha la forma, più attraente

P(B - A) = P(B) - P(A).

$Esercizio teorico$ 10. Dimostra che se A B allora P(A) P(B).

$Esercizio teorico$ 11. Supponi che {A_j: j J} sia una collezione numerabile di eventi. Prova la disuguaglianza di Boole (che prende il nome da George Boole):

P[_j A_j] _jP(A_j).

Suggerimento: Sia J = {1, 2, ...} e definiamo B₁ = A₁, B₂ = A₂ A₁^c, B₃ = A₃ A₁^c A₂^c, ... Prova che B₁, B₂, ... sono a due a due disgiunti e hanno la stessa unione di A₁, A₂, .... Usa l'assioma di additività della probabilità e il risultato dell'esercizio 6.

$Esercizio teorico$ 12. Supponi che {A_j: j J} sia una collezione numerabile di eventi con P(A_j) = 0 per ogni j appartennete a J. Usa la disuguaglianza di Boole per mostrare che

P[_j A_j] = 0.

$Esercizio teorico$ 13. Supponi che {A_j: j J} sia una collezione numerabile di eventi. Prova la disuguaglianza di Bonferroni (che prende il nome da Carlo Bonferroni):

P[_j A_j] 1 - _j [1 - P(A_j)].

Suggerimento: Applica la disuguaglianza di Boole a {A_j^c: j J}

$Esercizio teorico$ 14. Supponi che {A_j: j J} sia una collezione numerabile di eventi con P(A_j) = 1 per ogni j appartenente a J. Usa la disuguaglianza di Bonferroni per mostrare che

P[_j A_j] = 1.

$Esercizio teorico$ 15. Supponi che A e B siano eventi di un esperimento con P(A) = 1. Dimostra che P(A B) = P(B)

$Esercizio teorico$ 16. Prova la legge delle probabilità totali: se {A_j: j J} sia una collezione numerabile di eventi che partiziona lo spazio campionario S, allora per ogni evento B,

P(B) = _j P(A_j B).

Le formule di inclusione-esclusione

Le formule di inclusione-esclusione costituiscono un metodo per calcolare la probabilità di un'unione di eventi in termini delle probabilità di varie intersezioni degli stessi.

$Esercizio teorico$ 17. Mostra che, se A e B sono eventi allora

P(A B) = P(A) + P(B) - P(A B).

$Esercizio teorico$ 18. Mostra che, se A, B, e C sono eventi, allora

P(A B C) = P(A) + P(B) + P(C) - P(A B) - P(A C) - P(B C) + P(A B C)

Gli ultimi due esercizi possono essere generalizzati all'unione di n eventi A_i,i = 1, 2, ...n. Questa generalizzazione è deta formula di inclusione-esclusione. Per semplificarne la formulazione, sia N l'insieme di indici {1, 2, ..., n}. Definiamo

p_J = P[_{j in J} A_j] per J N.
q_k = _{{J:
#(J) = k}} p_J per k N

$Esercizio teorico$ 19. Prova che P[_{i
= 1, ..., n} A_i] = _{k
= 1, ..., n} (-1)^{k - 1} q_k.

La disuguaglianza di Bonferroni generalizzata afferma che se la sommatoria di destra è troncata dopo k termini (k < n), allora la somma troncata è un limite superiore per la probabilità dell'unione se k è dispari (per cui l'ultimo termine ha segno positivo) e un limite inferiore se k è pari (e l'ultimo termine ha segno negativo).

Se torni inditro e riguardi le dimostrazioni degli esercizi 6-19, vedrai che valgono per ogni misura finita m, non solo per la probabilità. La sola differenza è che il numero 1 è sostituto da m(S). In particolare, la regola di inclusione-esclusione è importante tanto nel calcolo combinatorio (lo studio delle misure di conteggio) quanto in probabilità.

Esercizi numerici

$Esercizio teorico$ 20. Supponiamo di lanciare 2 dadi equilibrati e di registrare la sequenza dei punteggi. Sia A l'evento in cui il punteggio del primo dado è minore di 3 e B l'evento in cui la somma dei punteggi dei dadi è 6.

Definisci formalmente lo spazio campionario S.
Poiché i dadi sono equilibrati, spiega perché la distribuzione uniforme su S è adeguata.
Trova P(A).
Trova P(B).
Trova P(A B).
Trova P(A B).
Trova P(B A^c ).

21. Nell'esperimento dei dadi, poni n = 2. Simula 100 replicazioni e calcola la probabilità empirica di ciascun evento dell'esercizio precedente.

$Esercizio teorico$ 22. Considera l'esperimento consistente nell'estrarre 2 carte da un mazzo standard e registrare la seuqenza. Per i = 1, 2, sia H_i l'evento in cui la carte i è di cuori.

Definisci formalmente lo spazio campionario S.
Spiega perché, se il mazzo è ben mischiato, la distribuzione uniforme su S è appropriata.
Trova P(H₁)
Trova P(H₁ H₂)
Trova P(H₁^c H₂)
Trova P(H₂)
Trova P(H₁ H₂).

23. Nell'esperimento delle carte, poni n = 2. Simula 100 replicazioni e calcola la probabilità empirica di ciascun evento dell'esercizio precedente.

$Esercizio teorico$ 24. Ricorda che l'esperimento della moneta di Buffon consiste nel lanciare "casualmente" una moneta di raggio r 1/2 su un pavimento coperto da mattonelle quadrate di lato 1. Si registrano le coordinate (X, Y) del centro della moneta, relativamente ad assi che passano attraverso il centro del quadrato e paralleli ai lati. Sia A l'evento in cui la moneta non tocca i lati del quadrato.

Definisci formalmente lo spazio campionario S.
Spiega perché la distribuzione uniforme su S è appropriata.
Trova P(A).
Trova P(A^c).

25. Nell'esperimento della moneta di Buffon, poni r = 0.2. Simula 100 replicazioni e calcola la probabilità empirica di ciascun evento dell'esercizio precedente.

$Esercizio teorico$ 26. Supponi che A e B siano eventi di un esperimento con P(A) = 1 / 3, P(B) = 1 / 4, P(A B) = 1 / 10. Esprimi ciascuno dei seguenti eventi nel linguaggio dell'esperimento e trova la sua probabilità:

A B^c
A B
A^c B^c
A^c B^c
A B^c

$Esercizio teorico$ 27. Supponi che A, B, e C siano eventi di un esperimento con

P(A) = 0.3, P(B) = 0.2, P(C) = 0.4, P(A B) = 0.04,

P(A C) = 0.1, P(B C) = 0.1, P(A B C) = 0.01

Esprimi ciascuno dei seguenti eventi in notazione insiemistica e trova la sua probabilità:

Si verifica almeno uno dei tre eventi.
Nessuno dei tre eventi si verifica.
Si verifica esattamente uno dei tre eventi.
Si verificano esattamete due dei tre eventi.

$Esercizio teorico$ 28. Si lanciano ripetutamente due dadi equilibrati finché la somma dei punteggi è 5 o 7. Si registra la sequenza di punteggi dell'ultimo lancio. Sia A l'evento in cui la somma è 5 invece che 7.

Definisci formalmente lo spazio campionario S.
Spiega perché, siccome i dadi sono equilibrati, la distribuzione uniforme su S è appropriata.
Trova P(A).

Le probabilità del tipo dell'ultimo esercizio sono utili nel gioco del craps.

$Esercizio teorico$ 29. Un esperimento consiste nel lanciare 3 monete equilibrate e registrare la sequenza dei punteggi. Sia A l'evento in cui la prima moneta è testa e B l'evento in cui si hanno esattamente due teste.

Definisci formalmente lo spazio campionario S.
Spiega perché, siccome le monete sono bilanciate, la distribuzione uniforme su S è appropriata.
Trova P(A).
Trova P(B)
Trova P(A B)
Trova P(A B).
Trova P(A^c B^c).
Trova P(A^c B^c).
Trova P(A B^c).

$Esercizio teorico$ 30. Una scatola contiene 12 biglie: 5 sono rosse, 4 verdi e 3 blu. Si estraggono a caso tre biglie, senza reinserimento.

Definisci uno spazio campionario per cui gli esiti sono equiprobabili.
Trova P(A) dove A è l'evento in cui le biglie estratte sono tutte dello stesso colore.
Trova P(B) dove B è l'evento in cui le biglie estratte sono tutte di colore diverso

$Esercizio teorico$ 31. Ripeti l'esercizio precedente nel caso in cui l'estrazione avvenga con reinserimento.

32. Sui dati M&M, sia R l'evento in cui un sacchetto ha almeno 10 pastiglie rosse, T l'evento in cui un sacchetto ha almeno 57 pastiglie in totale, e W l'evento in cui un sacchetto pesa almeno 50 grammi. Trova le probabilità empiriche dei seguenti eventi:

R
T
W
R T
T W^c.

33. Sui dati della cicala, sia W l'evento in cui una cicala pesa almeno 0.20 grammi, F l'evento in cui la cicala è femmina e T l'evento in cui la specie di cicala è la tredecula. Trova la probabilità empirica di

W
F
T
W F
F T W

Unicità ed estensione

Ricorda che la collezione di eventi di un esperimento formano una sigma algebra A. In alcuni casi A è generata da una collezione più piccola di eventi di base B, ovvero

A = sigma(B).

Spesso si è interessati a conoscere le probabilità degli eventi di base che determinano completamente l'intera misura di probabilità. Questo si rivela vero se gli eventi di base sono chiusi rispetto all'intersezione. Più specificamente, supponiamo che, se B, C B allora B C B (B è detto sistema pi). Se P₁ e P₂ sono misure di probabilità su A e P₁(B) = P₂(B) per B B allora P₁(A) = P₂(A) per ogni A A.

Per esempio, la sigma algebra standard (di Borel) su R è generata dalla collezione di tutti gli intervalli aperti di lunghezza finita, che è chiaramente chiusa rispetto all'intersezione. Pertanto, una misura di probabilità P su R è completamente determinata dai suoi valori su intervalli aperti finiti. In più, la sigma algebra su R è generata dalla collezione di intervalli chiusi e infiniti della forma (-, x]. Quindi, una misura di probabilità P su R è determinata completamente dai suoi valori su questi intervalli.

Supponiamo ora di avere n insiemi S₁, S₂, ..., S_n con sigma algebre rispettivamente A₁, A₂, ..., A_n. Ricorda che l'insieme prodotto

S = S₁ × S₂ × ··· × S_n

è uno spazio campionario naturale per un esperimento formato da misurazioni multiple, o per un esperimento composto che consiste nell'effettuare n esperimenti semplici in sequenza. Di solito, diamo a S la sigma algera A generata dalla collezione di tutti gli insiemi prodotto della forma

A = A₁ × A₂ × ··· × A_n dove A_i A_i per ogni i.

Tale collezione di insiemi prodotto è chiusa rispetto all'intersezione, e quindi una misura di probabilità su S è completamente determinata dai suoi valori su questi insiemi prodotto.

Generalizzando, supponiamo si avere una sequenza infinita di insiemi S₁, S₂, ... con sigma algebre rispettivamente A₁, A₂, ... . L'insieme prodotto

S = S₁ × S₂ × ···.

è uno spazio campionario naturale per un esperimento formato da un numero infinito di misurazioni, o per un esperimento composto che consiste nell'eseguire una sequenza infinita di esperimenti semplici. Di solito si dà a S la sigma algebra A generata dalla collezione degli insiemi prodotto della forma

A = A₁ × A₂ × ··· × A_n.× S_n₊₁ × S_n₊₂ × ··· dove n è un intero positivo e A_i A_i per ogni i.

Questa collezione di insiemi prodotto è chiusa rispetto all'intersezione, e quindi una misura di probabilità su S è determinata completamente dai suoi valori su questi insiemi prodotto.