Laboratorio virtuale > Test di ipotesi > 1 2 3 4 5 6 [7]
Supponiamo di avere un esperimento casuale con una variabile casuale di interesse X. Assumiamo inoltre che X sia discreta con funzione di densità f su un insieme finito S. Ripetiamo l'esperimento n volte per generare un campione casuale di dimensione n dalla distribuzione di X:
X1, X2, ..., Xn.
Ricorda che si tratta di variabili indipendenti, ciascuna distribuita come X.
In questo paragrafo assumeremo che la distribuzione di X sia ignota. Per una data funzione di densità f0, impareremo a testare l'ipotesi
H0: f = f0 contro H1: f f0,
Il test che costruiremo è noto come test per la bontà di adattamento per la densità ipotizzata f0. Al solito, il punto è trovare una buona statistica test, che ci dia informazioni sull'ipotesi e la cui distribuzione, sotto l'ipotesi nulla, sia almeno approssimatamente nota.
Sia S = {x1, x2, ..., xk}. Per semplificare la notazione, poniamo
pj = f0(xj) per j = 1, 2, ..., k.
Sia ora Nj = #{i appartenente a {1, 2, ..., n}: Xi = xj} per j = 1, 2, ..., k.
1. Mostra che, sotto l'ipotesi nulla,
L'esercizio 1 ci indica da dove cominciare per costruire il test: per ciascun j possiamo confrontare la frequenza osservata di xj (indicata con Nj) con la frequenza attesa di xj (ovvero npj), sotto l'ipotesi nulla. Specificamente, la nsotra statistica test sarà
V = (N1 - np1)2 / np1 + (N2 - np2)2 / np2 + ··· + (Nk - npk)2 / npk.
Osserva che la statistica test è basata sugli errori quadratici (le differenze tra le frequenze attese e le frequenze osservate). La ragione per cui si considera il rapporto è la seguente, che accettiamo senza darne la prova: sotto l'ipotesi nulla, per n che tende a infinito, la distribuzione di V converge alla distribuzione chi-quadro con k - 1 gradi di libertà.
Al solito, per m > 0 e r appartenente a (0, 1), indichiamo con vm, r il quantile di ordine p della distribuzione chi-quadro con k gradi di libertà. Per dati valori di m e r, vm, r può essere ricavato dalla tavola della distribuzione chi-quadro.
2. Prova che i seguenti test hanno livello di significatività approssimato a:
Rifiutare H0: f = f0 contro H1: f f0, se e solo se V > vk - 1, 1 - a.
Anche qui, il test è approssimato e funziona meglio quando n è grande. Quanto n dev'essere grande per avere un'approssimazione sufficiente dipende da pj; la regola pratica è che il test funziona bene se le frequenze attese npj sono almeno 1 e almeno l'80% sono almeno 5.
Generiamo una variabile indicatore I che assume valore 1 quando si rifiuta l'ipotesi nulla e 0 quando non la si rifiuta.
3. Supponiamo che la distribuzione da cui si estragono i campioni e la distribuzione del test siano identiche. Spiega perché:
4. Supponiamo che la distribuzione da cui si estragono i campioni e la distribuzione del test siano differenti. Spiega perché:
Nelle simulazioni seguenti, potrai valutare empiricamente la qualità del test.
5. Nell'esperimento chi-quadro dei dadi, scegli dadi equilibrati, dimensione campionaria 50 e livello di significatività 0.1. Poni la distribuzione del test come indicato sotto e, in ciascun caso, simula 1000 replicazioni. Nel caso (a), riporta la stima empirica del livello di significatività del test e confrontala con 0.1. Negli altri casi, riporta la stima empirica della potenza del test. Ordina le distribuzioni in (b)-(d) per potenza stimata. I risultati ti sembrano ragionevoli?
6. Nell'esperimento chi-quadro dei dadi, scegli dadi piatti uno-sei, dimensione campionaria 50 e livello di significatività 0.1. Poni la distribuzione del test come indicato sotto e, in ciascun caso, simula 1000 replicazioni. Nel caso (a), riporta la stima empirica del livello di significatività del test e confrontala con 0.1. Negli altri casi, riporta la stima empirica della potenza del test. Ordina le distribuzioni in (b)-(d) per potenza stimata. I risultati ti sembrano ragionevoli?
7. Nell'esperimento chi-quadro dei dadi, scegli dadi con distribuzione simmetrica unimodale, dimensione campionaria 50 e livello di significatività 0.1. Poni la distribuzione del test come indicato sotto e, in ciascun caso, simula 1000 replicazioni. Nel caso (a), riporta la stima empirica del livello di significatività del test e confrontala con 0.1. Negli altri casi, riporta la stima empirica della potenza del test. Ordina le distribuzioni in (b)-(d) per potenza stimata. I risultati ti sembrano ragionevoli?
8. Nell'esperimento chi-quadro dei dadi, scegli dadi con distribuzione asimmetrica a destra, dimensione campionaria 50 e livello di significatività 0.1. Poni la distribuzione del test come indicato sotto e, in ciascun caso, simula 1000 replicazioni. Nel caso (a), riporta la stima empirica del livello di significatività del test e confrontala con 0.1. Negli altri casi, riporta la stima empirica della potenza del test. Ordina le distribuzioni in (b)-(d) per potenza stimata. I risultati ti sembrano ragionevoli?
9. Supponi che D1 e D2 siano distribuzioni differenti. La potenza del test quando la distribuzione da cui si estraggono i campioni è D1 e la distribuzione del test è D2 è la stessa di quando la distribuzione da cui si estraggono i campioni è D1 e la distribuzione del test è D2? Cerca di spiegare questo fatto utilizzando i risultati degli esercizi 5-8.
10. Nell'esperimento chi-quadro dei dadi, scegli la distribuzione del campione e del test equilibrata e livello di significatività 0.05. Simula 1000 replicazioni per ciascuna delle seguenti dimensioni campionarie. In ciascun caso, riporta la stima empirica del livello di significatività e confrontala con 0.05.
11. Nell'esperimento chi-quadro dei dadi, scegli la distribuzione del campione equilibrati, la distribuzione del test piatti uno-sei e livello di significatività 0.05. Simula 1000 replicazioni per ciascuna delle seguenti dimensioni campionarie. In ciascun caso, riporta la stima empirica della potenza del test. La potenza sembra convergere?
Per un test analogo in ambito descrittivo, confronta il paragrafo sui Grafici quantile-quantile nel capitolo sui Campioni casuali.