Introduzione

1. Introduzione

Prove Bernoulliane

Il processo di Bernoulli, così detto in onore di James Bernoulli, è uno dei più semplici ma più importanti processi aleatori di tutta la probabilità. Essenzialemnte, il processo è l'astrazione matematica del lancio di una moneta, ma a causa della sua ampia applicabilità è spesso espresso in termini di una sequenza di prove generiche che soddisfano le seguenti assunzioni:

Ogni prova ha due possibili esiti, detti in genere successo e fallimento.
Le prove sono indipendenti. Intuitivamente, l'esito di una prova non ha influenza sugli esiti delle altre.
In ogni prova, la probabilità di successo è p e quella di fallimento è 1 - p.

In termini formali, possiamo definire la sequenza di prove Bernoulliane come vettore di variabili casuali indicatore:

I₁, I₂, I₃, ...

Una variabile indicatore è una variabile casuale che assume i valori 1 e 0, che in questo contesto indicano rispettivamente successo e fallimento. La j-esima variabile indicatore registra semplicemente l'esito della prova j. Quindi, le variabili indicatore sono indipendenti e hanno la stessa funzione di densità:

P(I_j = 1) = p, P(I_j = 0) = (1 - p)

Pertanto, il processo di prove di Bernoulli è caratterizzato da un singolo parametro p.

Come abbiamo notato poc'anzi, l'esempio più ovvio di prova Bernoulliana è quello del lancio della moneta, dove successo indica testa e fallimento croce. Il parametro p è la probabilità di testa (per cui, in generale, la moneta è sbilanciata).

1. Nell'esperimento della moneta, poni n = 20 e p = 0.1. Simula l'esperimento con p = 0.1 e osserva i risultati. Ripeti con p = 0.3, 0.5, 0.7, 0.9.

$Esercizio teorico$ 2. Usa le assunzioni di base per mostrare che

P(I₁ = i₁, I₂ = i₂, ..., I_n = i_n) = p^k(1 - p)^n-k dove k = i₁ + i₂ + ··· + i_n.

$Esercizio teorico$ 3. Supponi che I₁, I₂, I₃, ... sia un processo di prove di Bernoulli con parametro p. Mostra che 1 - I₁, 1 - I₂, 1 - I₃, ... è un processo di prove di Bernoulli con parametro 1 - p.

Esempi generici

In un certo senso, l'esempio più generale di prova di Bernoulli si ha replicando un esperimento. In particolare, supponiamo di avere un esperimento aleatorio semplice e un evento di interesse A. Supponiamo ora di creare un esperimento composto formato da replicazioni indipendenti dell'esperimento semplice. Definiamo successo alla prova j il fatto che l'evento A si sia verificato in tale prova, e viceversa fallimentio il fatto che A non si sia verificato. Ciò definisce ovviamente un processo di prove di Bernoulli con parametro p = P(A).

Le prove di Bernoulli si verificano anche estraendo campioni da una popolazione dicotomica. Specificamente, supponiamo di avere una popolazione di due tipi di unità, che indicheremo come tipo 0 e tipo 1. Le unità possono essere ad esempio persone, classificate come maschio o femmina, o componenti, classificati come funzionante o difettoso. Estraiamo n unità a caso dalla popolazione; per definizione, ciò significa che ogni unità della popolazione ha uguale probabilità di essere estratta. Se l'estrazione avviene con reinserimento, allora ciascuna unità estratta viene reinserita prima dell'estrazione successiva. In questo caso, le prove successive sono indipendenti, per cui i tipi di unità del campione formano una serie di prove Bernoulliane, in cui il parametro p è la proporzione di oggetti di tipo 1 all'interno della popolazione. Se l'estrazione avviene senza reinserimento, allora le estrazioni sono dipendenti, per cui le unità del campione non formano una sequenza di prove Bernoulliane. Ad ogni modo, se la numerosità della popolazione è elevata rispetto a quella del campione, la dipendenza provocata dal mancato reinseirmento può essere trascurabile, per cui a fini pratici le unità del campione possono essere trattate come sequenza di prove Bernoulliane. Ulteriori approfondimenti sul campionamento da una popolazione dicotomica si trova nel capitolo sui modelli di campionamento finiti.

Momenti

Per riferimento futuro, calcoliamo media, varianza e funzione generatrice di probabilità di una generica variabile indicatore I con P(I = 1) = p.

$Esercizio teorico$ 4. Prova che E(I) = p

$Esercizio teorico$ 5. Prova che var(I) = p(1 - p)

$Esercizio teorico$ 6. Prova che E(t^I) = 1 - p + pt per t appartenente a R.

$Esercizio teorico$ 7. Disegna il grafio della varianza dell'esercizio 5 in funzione di p. Nota in particolare che la varianza è massima per p = 1/2 e minima per p = 0 o p = 1.

Esercizi

$Esercizio teorico$ 8. Supponi che uno studente faccia un test a risposta multipla. Il test presenta 10 domande, ciascuna delle quali ha 4 possibili risposte (di cui una sola è corretta). Se lo studente tira a indovinare, le domande formano una sequenza di prove Bernoulliane? Se si, identifica gli esiti della prova e il parametro p.

$Esercizio teorico$ 9. Il candidato A concorre per una carica pubblica in un certo comune. Si scelgono a caso tra gli elettori del comune venti persone e si chiede se approvano il candidato. Le risposte formano una sequenza di prove Bernoulliane? Se si, identifica gli esiti della prova e il significato del parametro p.

$Esercizio teorico$ 10. Una roulette americana ha 38 caselle: 18 rosse, 18 nere e 2 verdi. Un giocatore gioca 15 volte, puntando ogni volta sul rosso. Gli esiti formano una sequenza di prove Bernoulliane? Se si, identifica gli esiti della prova e il parametro p..

$Esercizio teorico$ 11. Due giocatori di tennis giocano 6 partire. Le partite formano una sequenza di prove Bernoulliane? Se si, identifica gli esiti della prova e il significato del parametro p.

Esame del sangue raggruppato

Supponiamo che ogni soggetto di una popolazione, indipendentemente dagli altri, abbia una certa malattia con probabilità p. La malattia può essere identificata tramite un esame del sangue, ma ovviamente l'esame costa.

Per un gruppo di k > 1 persone, confronteremo due strategie. La prima è sottoporre a test i k soggetti individualmente, cosicché, ovviamente, servono k test. La seconda è di raggruppare il sangue prelevato dai k soggetti e esaminare per primo il sangue raggruppato. Assumeremo che il test dia esito negativo se e solo se tutti e k i soggetti sono sani; in questo caso serve solo un test. D'altra parte, il test dà esito positivo se e solo se almeno un soggetto è malato, e in questo caso si dovranno testare i soggetti individualmente; in questo caso servono k + 1 test. Sia quindi X il numero di test necessari per la strategia di raggruppamento.

$Esercizio teorico$ 12. Prova che

P(X = 1) = (1 - p)^k, P(X = k + 1) = 1 - (1 - p)^k.
E(X) = (k + 1) - k (1 - p)^k.

$Esercizio teorico$ 13. Mostra che, in termini di valore atteso, la strategia di raggruppamento è migliore dell'altra se e solo se

p < 1 - (1 / k)^{1 / k}.

Il grafico del valore critico p_k = 1 - (1 / k)^{1 / k} in funzione di k nell'intervallo [2, 20] è mostrato nel grafico seguente:

Grafico di pk

$Esercizio teorico$ 14. Prova che

Il valore massimo di p_k si verifica in k = 3, e p₃ ~ 0.307.
p_k tende a 0 per k che tende a .

Segue dagli esercizi 13 e 14 che se p > 0.307, il raggruppamento non ha senso, indipendentemente dalla dimensione del gruppo k. Al contrario, se p è molto piccolo, per cui la malattia è molto rara, il raggruppamento è ottimale a meno che la dimensione del gruppo k non sia molto grande.

Supponiamo ora di avere n soggetti. Per ogni k che divide n, possiamo partizionare la popolazione in n / k gruppi di k unità ciascuno e raggruppare i prelievi di sangue in ogni gruppo. Nota che k = 1 corrisponde all'esame individuale. Sia X_i il numero di test necessari per il gruppo i.

$Esercizio teorico$ 15. Spiega perché k > 1, X₁, X₂, ..., X_n/k sono indipendenti e ciascuno ha la distribuzione riportata nell'esercizio 12.

Il numero totale di test necessario in questo schema di partizionamento è

Y_k = X₁+ X₂+ ··· + X_n/k.

$Esercizio teorico$ 16. Mostra che il numero atteso totale di test è

E(Y_k) = n se k = 1
E(Y_k) = n[1 + 1 / k - (1 - p)^k] se k > 1.

Quindi, in termini di valore atteso, la strategia ottimale è di raggruppare la popolazione in n / k gruppi di dimensione k, dove k minimizza la funzione definita nell'esercizio precedente. È difficile ottenere una formula chiusa per il valore ottimale di k, ma questo valore può essere determinato numericamente per dati n e p.

$Esercizio teorico$ 17. Per i valori seguenti di n e p, trova la dimensione di raggruppamento ottimale k e il numero atteso di test.

n = 100, p = 0.01.
n = 1000, p = 0.05
n = 1000, p = 0.001