Laboratorio virtuale > Test di ipotesi > 1 2 3 [4] 5 6 7

4. Test nel modello di Bernoulli


Concetti preliminari

Supponiamo che I1, I2, ..., In sia un campione casuale della distribuzione di Bernoulli con parametro ignoto p appartenente a (0, 1). Si tratta pertanto di variabili indicatore indipendenti che assume valori 1 e 0 con probabilità rispettivamente p e 1 - p. Di solito, questo modello si presenta in uno dei seguenti contesti:

  1. Si ha un evento di interesse in un esperimento semplice, con probabilità ignota p. Si replica l'esperimento n volte e si definisce Ii = 1 se e solo se l'evento si è verificato nell'i-esima prova.
  2. Si ha una popolazione di unità di tipo diverso; la proporzione di oggetti di un particolare tipo di interesse è p, ignota. Si estraggono n unità dalla popolazionee poniamo Ii = 1 se e solo sel'i-esima unità è del tipo di interesse. Se l'estrazione è con reinserimento, queste variabili formano un campione casuale della distribuzione di Bernoulli. Se l'estrazione è senza reinserimento, le variabili sono dipendenti, ma il modello di Bernoulli può restare valido in senso approssimato. Per ulteriori approfondimenti, confronta il capitolo sui modelli di campionamento finito.

In questo paragrafo, impareremo a costruire test di ipotesi per il parametro p. Questo paragrafo è parallelo a quello sulla stima del modello di Bernoulli nel capitolo sulla stima intervallare.

Test per p

Lo spazio parametrico è {p: 0 < p < 1}, e ogni ipotesi definisce sottinsiemi di questo spazio. Ricorda che

N = I1 + I2 + ··· + In

ha distribuzione binomiale con parametri n e p e ha media e varianza

E(N) = np, var(N) = np(1 - p).

Inoltre, N è sufficiente per p, per cui è naturale costruire una statistica test a partire da N. Per r appartenente a (0, 1), sia br(n, p) il quantile di ordine r della distribuzione binomiale con parametri n e p. Poiché la distribuzione binomiale è discreta, si possono considerare solo alcuni specifici quantili.

Esercizio teorico 1. Prova che i seguenti test hanno livello di significativtà r:

  1. Rifiutare H0: p = p0 contro H1: p <> p0 se e solo se N < br/2(n, p0) o N > b1 - r/2(n, p0).
  2. Rifiutare H0: p <= p0 contro H1: p > p0 se e solo se N > b1 - r(n, p0).
  3. Rifiutare H0: p >= p0 contro H1: p < p0 se e solo se N < br(n, p0).

Se n è grande, la distribuzione di N è approssimativamente normale, per il teorema limite centrale. Pertanto, un test normale approssimato può essere costruito utilizzando la statistica test

Z0 = (N - np0) / [np0(1 - p0)]1/2.

Nota che Z0 è lo standard score di N sotto l'ipotesi nulla. Al solito, per r appartenente a (0, 1), sia zr il quantile di ordine r della distribuzione normale standardizzata.

Esercizio teorico 2. Mostra che, se n è grande, i seguenti test hanno livello di significatività approssimato r:

  1. Rifiutare H0: p = p0 contro H1: p <> p0 se e solo se Z0 > z1 - r/2 o Z0 < -z1 - r/2.
  2. Rifiutare H0: p <= p0 contro H1: p > p0 se e solo se Z0 > z1 - r.
  3. Rifiutare H0: p >= p0 contro H1: p < p0 se e solo se Z0 < -z1 - r.

Simulazione 3. Nell' esperimento del test della proporzione, poni H0: p = p0, n = 10, livello di significatività 0.1, e p0 = 0.5.

  1. Per ogni p = 0.1, 0.2, ..., 0.9, simula 1000 replicazioni, aggiornando ogni 10, e osserva la frequenza relativa di rifiuto di H0 per ciascun valore di p.
  2. Per p = 0.5, confronta la frequenza relativa col livello di significatività.
  3. Basandoti su tali frequenze relative, traccia il grafico della funzione di potenza empirica.

Simulazione 4. Nell' esperimento del test della proporzione, ripeti l'esercizio precedente per n = 20.

Simulazione 5. Nell' esperimento del test della proporzione, poni H0: p <= p0, n = 15, livello di significatività 0.05, e p0 = 0.3.

  1. Per ogni p = 0.1, 0.2, ..., 0.9, simula 1000 replicazioni, aggiornando ogni 10, e osserva la frequenza relativa di rifiuto di H0 per ciascun valore di p.
  2. Per p = 0.3, confronta la frequenza relativa col livello di significatività.
  3. Basandoti su tali frequenze relative, traccia il grafico della funzione di potenza empirica.

Simulazione 6. Nell' esperimento del test della proporzione, ripeti l'esercizio precedente per n = 30.

Simulazione 7. Nell' esperimento del test della proporzione, poni H0: p >= p0, n = 20, livello di significatività 0.01, e p0 = 0.6.

  1. Per ogni p = 0.1, 0.2, ..., 0.9, simula 1000 replicazioni, aggiornando ogni 10, e osserva la frequenza relativa di rifiuto di H0 per ciascun valore di p.
  2. Per p = 0.6, confronta la frequenza relativa col livello di significatività.
  3. Basandoti su tali frequenze relative, traccia il grafico della funzione di potenza empirica.

Simulazione 8. Nell' esperimento del test della proporzione, ripeti l'esercizio precedente per n = 50.

Test sul segno

Supponiamo ora di avere un semplice esperimento casuale con una variabile casuale di interesse X. Assumiamo che X abbia distribuzione continua. Sia p0 un dato numero appartenente a (0, 1), e sia m il quantile di ordine p0 della distribuzione di X. Quindi, per definizione,

p0 = P(X < m).

Supponi che m sia ignoto, e che vogliamo costruire test di ipotesi per m. Per un dato valore m0 da testare, sia

p = P(X < m0).

Esercizio teorico 9. Mostra che

  1. m = m0 se e solo se p = p0.
  2. m < m0 se e solo se p > p0.
  3. m > m0 se e solo se p < p0.

Al solito, ripetiamo n volte l'esperimento per generare un campione casuale di dimensione n estratto dalla distribuzione di X:

X1, X2, ..., Xn.

Sia Ii la variabile indicatore dell'evento {Xi < m0} for i = 1, 2, ..., n.

Esercizio teorico 10. Dimostra che I1, I2, ..., In è un campione casuale di dimensione n dalla distribuzione di Bernoulli con parametro p.

Sulla base degli esercizi 9 e 10, i test per il quantile ignoto m possono essere trasformati in test per il parametro di Bernoulli p, e quindi i test ricavati in precedenza sono utilizzabili a questo proposito. Questa procedura è detta test sul segno, poiché, alla fine, si registra solo il segno di Xi - m0 per ogni i. Questa procedura è anche un esempio di test non parametrico, poiché non si fanno assunzioni sulla distribuzione di X (a parte la continuità). In particolare, non dobbiamo assumere che la distribuzione di X appartenga a una particolare famiglia parametrica.

Il caso particolare più importante di test sul segno è il caso in cui p0 = 1/2; ovvero il test sul segno della mediana. Se si sa che la distribuzione di X è simmetrica, media e mediana coincidono. In questo casi, i test per il segno della mediana e della media coincidono.

Simulazione 11. Nell'esperimento del test del segno, selelziona la distribuzione normale con media 0 e deviaizone standard 2. Poni la dimensione campionaria a 10 e il livello di significatività a 0.1. Per ciascuno dei 9 valori di m0, simula 1000 replicazioni, aggiornando ogni 10.

  1. Per m0 = m, riporta la stima empirica del livello di significatività del test e confronta con 0.1.
  2. Negli altri casi, riporta la stima empirica della potenza del test.

Simulazione 12. Nell'esperimento del test del segno, seleziona la distribuzione uniforme sull'intervallo [0, 5] e poni la dimensione campionaria a 20 e il livello di significatività a 0.05. Per ciascuno dei 9 valori di m0, simula 1000 replicazioni, aggiornando ogni 10.

  1. Per m0 = m, riporta la stima empirica del livello di significatività del test e confronta con 0.05.
  2. Negli altri casi, riporta la stima empirica della potenza del test.

Simulazione 13. Nell'esperimento del test del segno, seleziona la distribuzione gamma con parametro di forma a = 2 e parametro di scala r = 1 . Poni la dimensione campionaria a 30 e il livello di significatività a 0.025. Per ciascuno dei 9 valori di m0, simula 1000 replicazioni, aggiornando ogni 10.

  1. Per m0 = m, riporta la stima empirica del livello di significatività del test e confronta con 0.025.
  2. Negli altri casi, riporta la stima empirica della potenza del test.

Esercizi numerici

Esercizio teorico 14. Su un campione di 1000 elettori in un cero collegio, 427 preferiscono il candidato X. Al livello 0.1, questo è sufficiente per concludere che più del 40% degli elettori preferiscono X?

Esercizio teorico 15. Si lancia una moenta 500 volte e si ottengono 302 teste. Sottoponi a test, allo 0.05, il fatto che la moneta sia squilibrata.

Esercizio teorico 16. Si testa un campione di 400 chip di memoria e si osserva che 30 sono difettosi. Sottoponi a test, al livello 0.05, il fatto che la proporzione dei chip difettosi sia inferiore allo 0.1.

Esercizio teorico 17. Si somministra un nuovo farmaco a 50 pazienti, ed esso si rivela efficace in 42 casi. Sottoponi a test, allo 0.1, il fatto che il tasso di successo del nuovo farmaco sia superiore a 0.8.

Esercizio numerico 18. Sui dati M&M, sottoponi a test le seguenti ipotesi alternative al livello di significatività 0.1:

  1. La proporzione di M&Ms rosse è diversa da 1/6.
  2. La proporzione di M&Ms verdi è minore di 1/6
  3. La proporzione di M&M gialle è maggiore di 1/6

Esercizio numerico 19. Sui dati M&M, esegui un test per valutare se il peso mediano è superiore a 47.9 grammi, al livello 0.1.

Esercizio numerico 20. Esegui, sui dati di Fisher sugli iris, i seguenti test, al livello 0.1:

  1. La lunghezza mediana di un petalo di Setosa è diversa da 15 mm.
  2. La lunghezza mediana di un petalo di Virginica è maggiore di 52 mm.
  3. La lunghezza mediana di un petalo di Versicolor è minore di 42 mm.