Test nel modello di Bernoulli

4. Test nel modello di Bernoulli

Concetti preliminari

Supponiamo che I₁, I₂, ..., I_n sia un campione casuale della distribuzione di Bernoulli con parametro ignoto p appartenente a (0, 1). Si tratta pertanto di variabili indicatore indipendenti che assume valori 1 e 0 con probabilità rispettivamente p e 1 - p. Di solito, questo modello si presenta in uno dei seguenti contesti:

Si ha un evento di interesse in un esperimento semplice, con probabilità ignota p. Si replica l'esperimento n volte e si definisce I_i = 1 se e solo se l'evento si è verificato nell'i-esima prova.
Si ha una popolazione di unità di tipo diverso; la proporzione di oggetti di un particolare tipo di interesse è p, ignota. Si estraggono n unità dalla popolazionee poniamo I_i = 1 se e solo sel'i-esima unità è del tipo di interesse. Se l'estrazione è con reinserimento, queste variabili formano un campione casuale della distribuzione di Bernoulli. Se l'estrazione è senza reinserimento, le variabili sono dipendenti, ma il modello di Bernoulli può restare valido in senso approssimato. Per ulteriori approfondimenti, confronta il capitolo sui modelli di campionamento finito.

In questo paragrafo, impareremo a costruire test di ipotesi per il parametro p. Questo paragrafo è parallelo a quello sulla stima del modello di Bernoulli nel capitolo sulla stima intervallare.

Test per `p`

Lo spazio parametrico è {p: 0 < p < 1}, e ogni ipotesi definisce sottinsiemi di questo spazio. Ricorda che

N = I₁ + I₂ + ··· + I_n

ha distribuzione binomiale con parametri n e p e ha media e varianza

E(N) = np, var(N) = np(1 - p).

Inoltre, N è sufficiente per p, per cui è naturale costruire una statistica test a partire da N. Per r appartenente a (0, 1), sia b_r(n, p) il quantile di ordine r della distribuzione binomiale con parametri n e p. Poiché la distribuzione binomiale è discreta, si possono considerare solo alcuni specifici quantili.

$Esercizio teorico$ 1. Prova che i seguenti test hanno livello di significativtà r:

Rifiutare H₀: p = p₀ contro H₁: p p₀ se e solo se N < b_r_/2(n, p₀) o N > b_{1
-}_r_/2(n, p₀).
Rifiutare H₀: p p₀ contro H₁: p > p₀ se e solo se N > b_{1 -}_r(n, p₀).
Rifiutare H₀: p p₀ contro H₁: p < p₀ se e solo se N < b_r(n, p₀).

Se n è grande, la distribuzione di N è approssimativamente normale, per il teorema limite centrale. Pertanto, un test normale approssimato può essere costruito utilizzando la statistica test

Z₀ = (N - np₀) / [np₀(1 - p₀)]^1/2.

Nota che Z₀ è lo standard score di N sotto l'ipotesi nulla. Al solito, per r appartenente a (0, 1), sia z_r il quantile di ordine r della distribuzione normale standardizzata.

$Esercizio teorico$ 2. Mostra che, se n è grande, i seguenti test hanno livello di significatività approssimato r:

Rifiutare H₀: p = p₀ contro H₁: p p₀ se e solo se Z₀ > z_{1 -} _r_/2 o Z₀ < -z_{1
-}_r_/2.
Rifiutare H₀: p p₀ contro H₁: p > p₀ se e solo se Z₀ > z_{1 -}_r.
Rifiutare H₀: p p₀ contro H₁: p < p₀ se e solo se Z₀ < -z_{1 -}_r.

3. Nell' esperimento del test della proporzione, poni H₀: p = p₀, n = 10, livello di significatività 0.1, e p₀ = 0.5.

Per ogni p = 0.1, 0.2, ..., 0.9, simula 1000 replicazioni, aggiornando ogni 10, e osserva la frequenza relativa di rifiuto di H₀ per ciascun valore di p.
Per p = 0.5, confronta la frequenza relativa col livello di significatività.
Basandoti su tali frequenze relative, traccia il grafico della funzione di potenza empirica.

4. Nell' esperimento del test della proporzione, ripeti l'esercizio precedente per n = 20.

5. Nell' esperimento del test della proporzione, poni H₀: p p₀, n = 15, livello di significatività 0.05, e p₀ = 0.3.

Per ogni p = 0.1, 0.2, ..., 0.9, simula 1000 replicazioni, aggiornando ogni 10, e osserva la frequenza relativa di rifiuto di H₀ per ciascun valore di p.
Per p = 0.3, confronta la frequenza relativa col livello di significatività.
Basandoti su tali frequenze relative, traccia il grafico della funzione di potenza empirica.

6. Nell' esperimento del test della proporzione, ripeti l'esercizio precedente per n = 30.

7. Nell' esperimento del test della proporzione, poni H₀: p p₀, n = 20, livello di significatività 0.01, e p₀ = 0.6.

Per ogni p = 0.1, 0.2, ..., 0.9, simula 1000 replicazioni, aggiornando ogni 10, e osserva la frequenza relativa di rifiuto di H₀ per ciascun valore di p.
Per p = 0.6, confronta la frequenza relativa col livello di significatività.
Basandoti su tali frequenze relative, traccia il grafico della funzione di potenza empirica.

8. Nell' esperimento del test della proporzione, ripeti l'esercizio precedente per n = 50.

Test sul segno

Supponiamo ora di avere un semplice esperimento casuale con una variabile casuale di interesse X. Assumiamo che X abbia distribuzione continua. Sia p₀ un dato numero appartenente a (0, 1), e sia m il quantile di ordine p₀ della distribuzione di X. Quindi, per definizione,

p₀ = P(X < m).

Supponi che m sia ignoto, e che vogliamo costruire test di ipotesi per m. Per un dato valore m₀ da testare, sia

p = P(X < m₀).

$Esercizio teorico$ 9. Mostra che

m = m₀ se e solo se p = p₀.
m < m₀ se e solo se p > p₀.
m > m₀ se e solo se p < p₀.

Al solito, ripetiamo n volte l'esperimento per generare un campione casuale di dimensione n estratto dalla distribuzione di X:

X₁, X₂, ..., X_n.

Sia I_i la variabile indicatore dell'evento {X_i < m₀} for i = 1, 2, ..., n.

$Esercizio teorico$ 10. Dimostra che I₁, I₂, ..., I_n è un campione casuale di dimensione n dalla distribuzione di Bernoulli con parametro p.

Sulla base degli esercizi 9 e 10, i test per il quantile ignoto m possono essere trasformati in test per il parametro di Bernoulli p, e quindi i test ricavati in precedenza sono utilizzabili a questo proposito. Questa procedura è detta test sul segno, poiché, alla fine, si registra solo il segno di X_i - m₀ per ogni i. Questa procedura è anche un esempio di test non parametrico, poiché non si fanno assunzioni sulla distribuzione di X (a parte la continuità). In particolare, non dobbiamo assumere che la distribuzione di X appartenga a una particolare famiglia parametrica.

Il caso particolare più importante di test sul segno è il caso in cui p₀ = 1/2; ovvero il test sul segno della mediana. Se si sa che la distribuzione di X è simmetrica, media e mediana coincidono. In questo casi, i test per il segno della mediana e della media coincidono.

11. Nell'esperimento del test del segno, selelziona la distribuzione normale con media 0 e deviaizone standard 2. Poni la dimensione campionaria a 10 e il livello di significatività a 0.1. Per ciascuno dei 9 valori di m₀, simula 1000 replicazioni, aggiornando ogni 10.

Per m₀ = m, riporta la stima empirica del livello di significatività del test e confronta con 0.1.
Negli altri casi, riporta la stima empirica della potenza del test.

12. Nell'esperimento del test del segno, seleziona la distribuzione uniforme sull'intervallo [0, 5] e poni la dimensione campionaria a 20 e il livello di significatività a 0.05. Per ciascuno dei 9 valori di m₀, simula 1000 replicazioni, aggiornando ogni 10.

Per m₀ = m, riporta la stima empirica del livello di significatività del test e confronta con 0.05.
Negli altri casi, riporta la stima empirica della potenza del test.

13. Nell'esperimento del test del segno, seleziona la distribuzione gamma con parametro di forma a = 2 e parametro di scala r = 1 . Poni la dimensione campionaria a 30 e il livello di significatività a 0.025. Per ciascuno dei 9 valori di m₀, simula 1000 replicazioni, aggiornando ogni 10.

Per m₀ = m, riporta la stima empirica del livello di significatività del test e confronta con 0.025.
Negli altri casi, riporta la stima empirica della potenza del test.

Esercizi numerici

$Esercizio teorico$ 14. Su un campione di 1000 elettori in un cero collegio, 427 preferiscono il candidato X. Al livello 0.1, questo è sufficiente per concludere che più del 40% degli elettori preferiscono X?

$Esercizio teorico$ 15. Si lancia una moenta 500 volte e si ottengono 302 teste. Sottoponi a test, allo 0.05, il fatto che la moneta sia squilibrata.

$Esercizio teorico$ 16. Si testa un campione di 400 chip di memoria e si osserva che 30 sono difettosi. Sottoponi a test, al livello 0.05, il fatto che la proporzione dei chip difettosi sia inferiore allo 0.1.

$Esercizio teorico$ 17. Si somministra un nuovo farmaco a 50 pazienti, ed esso si rivela efficace in 42 casi. Sottoponi a test, allo 0.1, il fatto che il tasso di successo del nuovo farmaco sia superiore a 0.8.

18. Sui dati M&M, sottoponi a test le seguenti ipotesi alternative al livello di significatività 0.1:

La proporzione di M&Ms rosse è diversa da 1/6.
La proporzione di M&Ms verdi è minore di 1/6
La proporzione di M&M gialle è maggiore di 1/6

19. Sui dati M&M, esegui un test per valutare se il peso mediano è superiore a 47.9 grammi, al livello 0.1.

20. Esegui, sui dati di Fisher sugli iris, i seguenti test, al livello 0.1:

La lunghezza mediana di un petalo di Setosa è diversa da 15 mm.
La lunghezza mediana di un petalo di Virginica è maggiore di 52 mm.
La lunghezza mediana di un petalo di Versicolor è minore di 42 mm.

4. Test nel modello di Bernoulli

Concetti preliminari

Test per p

Test sul segno

Esercizi numerici

Test per `p`