Test per la bontà di adattattamento

7. Test per la bontà di adattattamento

Concetti preliminari

Supponiamo di avere un esperimento casuale con una variabile casuale di interesse X. Assumiamo inoltre che X sia discreta con funzione di densità f su un insieme finito S. Ripetiamo l'esperimento n volte per generare un campione casuale di dimensione n dalla distribuzione di X:

X₁, X₂, ..., X_n.

Ricorda che si tratta di variabili indipendenti, ciascuna distribuita come X.

In questo paragrafo assumeremo che la distribuzione di X sia ignota. Per una data funzione di densità f₀, impareremo a testare l'ipotesi

H₀: f = f₀ contro H₁: f f₀,

Il test che costruiremo è noto come test per la bontà di adattamento per la densità ipotizzata f₀. Al solito, il punto è trovare una buona statistica test, che ci dia informazioni sull'ipotesi e la cui distribuzione, sotto l'ipotesi nulla, sia almeno approssimatamente nota.

Derivazione del test

Sia S = {x₁, x₂, ..., x_k}. Per semplificare la notazione, poniamo

p_j = f₀(x_j) per j = 1, 2, ..., k.

Sia ora N_j = #{i appartenente a {1, 2, ..., n}: X_i = x_j} per j = 1, 2, ..., k.

$Esercizio teorico$ 1. Mostra che, sotto l'ipotesi nulla,

N = (N₁, N₂, ..., N_k) ha distribuzione multinomiale con parametri n e p₁, p₂, ..., p_k.
E(N_j) = np_j.
var(N_j) = np_j(1 - p_j).

L'esercizio 1 ci indica da dove cominciare per costruire il test: per ciascun j possiamo confrontare la frequenza osservata di x_j (indicata con N_j) con la frequenza attesa di x_j (ovvero np_j), sotto l'ipotesi nulla. Specificamente, la nsotra statistica test sarà

V = (N₁ - np₁)² / np₁ + (N₂ - np₂)² / np₂ + ··· + (N_k - np_k)² / np_k.

Osserva che la statistica test è basata sugli errori quadratici (le differenze tra le frequenze attese e le frequenze osservate). La ragione per cui si considera il rapporto è la seguente, che accettiamo senza darne la prova: sotto l'ipotesi nulla, per n che tende a infinito, la distribuzione di V converge alla distribuzione chi-quadro con k - 1 gradi di libertà.

Al solito, per m > 0 e r appartenente a (0, 1), indichiamo con v_{m, r} il quantile di ordine p della distribuzione chi-quadro con k gradi di libertà. Per dati valori di m e r, v_{m, r} può essere ricavato dalla tavola della distribuzione chi-quadro.

$Esercizio teorico$ 2. Prova che i seguenti test hanno livello di significatività approssimato a:

Rifiutare H₀: f = f₀ contro H₁: f f₀, se e solo se V > v_k - 1, 1 - a.

Anche qui, il test è approssimato e funziona meglio quando n è grande. Quanto n dev'essere grande per avere un'approssimazione sufficiente dipende da p_j; la regola pratica è che il test funziona bene se le frequenze attese np_j sono almeno 1 e almeno l'80% sono almeno 5.

Generiamo una variabile indicatore I che assume valore 1 quando si rifiuta l'ipotesi nulla e 0 quando non la si rifiuta.

$Esercizio teorico$ 3. Supponiamo che la distribuzione da cui si estragono i campioni e la distribuzione del test siano identiche. Spiega perché:

L'ipotesi nulla è vera
I = 0 indica una decisione corretta
I = 1 indica un errore di prima specie
La frequenza relativa dell'evento I = 1, quando si ripete l'esperimento, converge al livello di significatività del test
Se la dimensione del campione n è grande, il numero in (d) dev'essere prossimo al livello di significatività

$Esercizio teorico$ 4. Supponiamo che la distribuzione da cui si estragono i campioni e la distribuzione del test siano differenti. Spiega perché:

L'ipotesi nulla è falsa
I = 0 indica un errore di seconda specie
I = 1 indica una decisione corretta
La frequenza relativa dell'evento I = 1, quando si ripete l'esperimento, converge alla potenza del test.

Simulazioni

Nelle simulazioni seguenti, potrai valutare empiricamente la qualità del test.

5. Nell'esperimento chi-quadro dei dadi, scegli dadi equilibrati, dimensione campionaria 50 e livello di significatività 0.1. Poni la distribuzione del test come indicato sotto e, in ciascun caso, simula 1000 replicazioni. Nel caso (a), riporta la stima empirica del livello di significatività del test e confrontala con 0.1. Negli altri casi, riporta la stima empirica della potenza del test. Ordina le distribuzioni in (b)-(d) per potenza stimata. I risultati ti sembrano ragionevoli?

equilibrati
piatto uno-sei
distribuzione simmetrica unimodale
distribuzione asimmetrica a destra

6. Nell'esperimento chi-quadro dei dadi, scegli dadi piatti uno-sei, dimensione campionaria 50 e livello di significatività 0.1. Poni la distribuzione del test come indicato sotto e, in ciascun caso, simula 1000 replicazioni. Nel caso (a), riporta la stima empirica del livello di significatività del test e confrontala con 0.1. Negli altri casi, riporta la stima empirica della potenza del test. Ordina le distribuzioni in (b)-(d) per potenza stimata. I risultati ti sembrano ragionevoli?

piatto uno-sei
equilibrati
distribuzione simmetrica unimodale
distribuzione asimmetrica a destra

7. Nell'esperimento chi-quadro dei dadi, scegli dadi con distribuzione simmetrica unimodale, dimensione campionaria 50 e livello di significatività 0.1. Poni la distribuzione del test come indicato sotto e, in ciascun caso, simula 1000 replicazioni. Nel caso (a), riporta la stima empirica del livello di significatività del test e confrontala con 0.1. Negli altri casi, riporta la stima empirica della potenza del test. Ordina le distribuzioni in (b)-(d) per potenza stimata. I risultati ti sembrano ragionevoli?

distribuzione simmetrica unimodale
piatto uno-sei
equilibrati
distribuzione asimmetrica a destra

8. Nell'esperimento chi-quadro dei dadi, scegli dadi con distribuzione asimmetrica a destra, dimensione campionaria 50 e livello di significatività 0.1. Poni la distribuzione del test come indicato sotto e, in ciascun caso, simula 1000 replicazioni. Nel caso (a), riporta la stima empirica del livello di significatività del test e confrontala con 0.1. Negli altri casi, riporta la stima empirica della potenza del test. Ordina le distribuzioni in (b)-(d) per potenza stimata. I risultati ti sembrano ragionevoli?

distribuzione asimmetrica a destra
piatto uno-sei
equilibrati
distribuzione simmetrica unimodale

$Esercizio teorico$ 9. Supponi che D₁ e D₂ siano distribuzioni differenti. La potenza del test quando la distribuzione da cui si estraggono i campioni è D₁ e la distribuzione del test è D₂ è la stessa di quando la distribuzione da cui si estraggono i campioni è D₁ e la distribuzione del test è D₂? Cerca di spiegare questo fatto utilizzando i risultati degli esercizi 5-8.

10. Nell'esperimento chi-quadro dei dadi, scegli la distribuzione del campione e del test equilibrata e livello di significatività 0.05. Simula 1000 replicazioni per ciascuna delle seguenti dimensioni campionarie. In ciascun caso, riporta la stima empirica del livello di significatività e confrontala con 0.05.

n = 10
n = 20
n = 50
n = 100

11. Nell'esperimento chi-quadro dei dadi, scegli la distribuzione del campione equilibrati, la distribuzione del test piatti uno-sei e livello di significatività 0.05. Simula 1000 replicazioni per ciascuna delle seguenti dimensioni campionarie. In ciascun caso, riporta la stima empirica della potenza del test. La potenza sembra convergere?

n = 10
n = 20
n = 50
n = 100

Argomenti correlati

Per un test analogo in ambito descrittivo, confronta il paragrafo sui Grafici quantile-quantile nel capitolo sui Campioni casuali.