Laboratorio virtuale > Test di ipotesi > 1 2 3 4 5 6 [7]

7. Test per la bontà di adattattamento


Concetti preliminari

Supponiamo di avere un esperimento casuale con una variabile casuale di interesse X. Assumiamo inoltre che X sia discreta con funzione di densità f su un insieme finito S. Ripetiamo l'esperimento n volte per generare un campione casuale di dimensione n dalla distribuzione di X:

X1, X2, ..., Xn.

Ricorda che si tratta di variabili indipendenti, ciascuna distribuita come X.

In questo paragrafo assumeremo che la distribuzione di X sia ignota. Per una data funzione di densità f0, impareremo a testare l'ipotesi

H0: f = f0 contro H1: f diverso da f0,

Il test che costruiremo è noto come test per la bontà di adattamento per la densità ipotizzata f0. Al solito, il punto è trovare una buona statistica test, che ci dia informazioni sull'ipotesi e la cui distribuzione, sotto l'ipotesi nulla, sia almeno approssimatamente nota.

Derivazione del test

Sia S = {x1, x2, ..., xk}. Per semplificare la notazione, poniamo

pj = f0(xj) per j = 1, 2, ..., k.

Sia ora Nj = #{i appartenente a {1, 2, ..., n}: Xi = xj} per j = 1, 2, ..., k.

Esercizio teorico 1. Mostra che, sotto l'ipotesi nulla,

  1. N = (N1, N2, ..., Nk) ha distribuzione multinomiale con parametri n e p1, p2, ..., pk.
  2. E(Nj) = npj.
  3. var(Nj) = npj(1 - pj).

L'esercizio 1 ci indica da dove cominciare per costruire il test: per ciascun j possiamo confrontare la frequenza osservata di xj (indicata con Nj) con la frequenza attesa di xj (ovvero npj), sotto l'ipotesi nulla. Specificamente, la nsotra statistica test sarà

V = (N1 - np1)2 / np1 + (N2 - np2)2 / np2 + ··· + (Nk - npk)2 / npk.

Osserva che la statistica test è basata sugli errori quadratici (le differenze tra le frequenze attese e le frequenze osservate). La ragione per cui si considera il rapporto è la seguente, che accettiamo senza darne la prova: sotto l'ipotesi nulla, per n che tende a infinito, la distribuzione di V converge alla distribuzione chi-quadro con k - 1 gradi di libertà.

Al solito, per m > 0 e r appartenente a (0, 1), indichiamo con vm, r il quantile di ordine p della distribuzione chi-quadro con k gradi di libertà. Per dati valori di m e r, vm, r può essere ricavato dalla tavola della distribuzione chi-quadro.

Esercizio teorico 2. Prova che i seguenti test hanno livello di significatività approssimato a:

Rifiutare H0: f = f0 contro H1: f diverso da f0, se e solo se V > vk - 1, 1 - a.

Anche qui, il test è approssimato e funziona meglio quando n è grande. Quanto n dev'essere grande per avere un'approssimazione sufficiente dipende da pj; la regola pratica è che il test funziona bene se le frequenze attese npj sono almeno 1 e almeno l'80% sono almeno 5.

Generiamo una variabile indicatore I che assume valore 1 quando si rifiuta l'ipotesi nulla e 0 quando non la si rifiuta.

Esercizio teorico 3. Supponiamo che la distribuzione da cui si estragono i campioni e la distribuzione del test siano identiche. Spiega perché:

  1. L'ipotesi nulla è vera
  2. I = 0 indica una decisione corretta
  3. I = 1 indica un errore di prima specie
  4. La frequenza relativa dell'evento I = 1, quando si ripete l'esperimento, converge al livello di significatività del test
  5. Se la dimensione del campione n è grande, il numero in (d) dev'essere prossimo al livello di significatività

Esercizio teorico 4. Supponiamo che la distribuzione da cui si estragono i campioni e la distribuzione del test siano differenti. Spiega perché:

  1. L'ipotesi nulla è falsa
  2. I = 0 indica un errore di seconda specie
  3. I = 1 indica una decisione corretta
  4. La frequenza relativa dell'evento I = 1, quando si ripete l'esperimento, converge alla potenza del test.

Simulazioni

Nelle simulazioni seguenti, potrai valutare empiricamente la qualità del test.

Simulazione 5. Nell'esperimento chi-quadro dei dadi, scegli dadi equilibrati, dimensione campionaria 50 e livello di significatività 0.1. Poni la distribuzione del test come indicato sotto e, in ciascun caso, simula 1000 replicazioni. Nel caso (a), riporta la stima empirica del livello di significatività del test e confrontala con 0.1. Negli altri casi, riporta la stima empirica della potenza del test. Ordina le distribuzioni in (b)-(d) per potenza stimata. I risultati ti sembrano ragionevoli?

  1. equilibrati
  2. piatto uno-sei
  3. distribuzione simmetrica unimodale
  4. distribuzione asimmetrica a destra

Simulazione 6. Nell'esperimento chi-quadro dei dadi, scegli dadi piatti uno-sei, dimensione campionaria 50 e livello di significatività 0.1. Poni la distribuzione del test come indicato sotto e, in ciascun caso, simula 1000 replicazioni. Nel caso (a), riporta la stima empirica del livello di significatività del test e confrontala con 0.1. Negli altri casi, riporta la stima empirica della potenza del test. Ordina le distribuzioni in (b)-(d) per potenza stimata. I risultati ti sembrano ragionevoli?

  1. piatto uno-sei
  2. equilibrati
  3. distribuzione simmetrica unimodale
  4. distribuzione asimmetrica a destra

Simulazione 7. Nell'esperimento chi-quadro dei dadi, scegli dadi con distribuzione simmetrica unimodale, dimensione campionaria 50 e livello di significatività 0.1. Poni la distribuzione del test come indicato sotto e, in ciascun caso, simula 1000 replicazioni. Nel caso (a), riporta la stima empirica del livello di significatività del test e confrontala con 0.1. Negli altri casi, riporta la stima empirica della potenza del test. Ordina le distribuzioni in (b)-(d) per potenza stimata. I risultati ti sembrano ragionevoli?

  1. distribuzione simmetrica unimodale
  2. piatto uno-sei
  3. equilibrati
  4. distribuzione asimmetrica a destra

Simulazione 8. Nell'esperimento chi-quadro dei dadi, scegli dadi con distribuzione asimmetrica a destra, dimensione campionaria 50 e livello di significatività 0.1. Poni la distribuzione del test come indicato sotto e, in ciascun caso, simula 1000 replicazioni. Nel caso (a), riporta la stima empirica del livello di significatività del test e confrontala con 0.1. Negli altri casi, riporta la stima empirica della potenza del test. Ordina le distribuzioni in (b)-(d) per potenza stimata. I risultati ti sembrano ragionevoli?

  1. distribuzione asimmetrica a destra
  2. piatto uno-sei
  3. equilibrati
  4. distribuzione simmetrica unimodale

Esercizio teorico 9. Supponi che D1 e D2 siano distribuzioni differenti. La potenza del test quando la distribuzione da cui si estraggono i campioni è D1 e la distribuzione del test è D2 è la stessa di quando la distribuzione da cui si estraggono i campioni è D1 e la distribuzione del test è D2? Cerca di spiegare questo fatto utilizzando i risultati degli esercizi 5-8.

Simulazione 10. Nell'esperimento chi-quadro dei dadi, scegli la distribuzione del campione e del test equilibrata e livello di significatività 0.05. Simula 1000 replicazioni per ciascuna delle seguenti dimensioni campionarie. In ciascun caso, riporta la stima empirica del livello di significatività e confrontala con 0.05.

  1. n = 10
  2. n = 20
  3. n = 50
  4. n = 100

Simulazione 11. Nell'esperimento chi-quadro dei dadi, scegli la distribuzione del campione equilibrati, la distribuzione del test piatti uno-sei e livello di significatività 0.05. Simula 1000 replicazioni per ciascuna delle seguenti dimensioni campionarie. In ciascun caso, riporta la stima empirica della potenza del test. La potenza sembra convergere?

  1. n = 10
  2. n = 20
  3. n = 50
  4. n = 100

Argomenti correlati

Per un test analogo in ambito descrittivo, confronta il paragrafo sui Grafici quantile-quantile nel capitolo sui Campioni casuali.