Laboratorio virtuale > Test di ipotesi > [1] 2 3 4 5 6 7

1. Introduzione


Il modello statistico di base

Al solito, iniziamo con l'introdurre un esperimento casuale definito su un certo spazio campionario e con misura di probabilità P. Nel modello statistico di base, abbiamo una variabile casuale osservabile X che assume valori in S. In generale, X può avere struttura complessa. Ad esempio, se l'esperimento consiste nell'estrarre n unità da una popolazione e registrare le varie misure di interesse, allora

X = (X1, X2, ..., Xn)

dove Xi è il vettore di misurazioni per l'i-esima unità. Il caso più importante si ha quando X1, X2, ..., Xn, sono indipendenti e identicamente distribuite. Si ha allora un campione casuale di dimensione n dalla distribuzione comune.

Test di ipotesi generali

Un'ipotesi statistica è un'asserzione sulla distribuzione della variabile X; equivalentemente, un'ipotesi statistica individua un insieme di possibili distribuzioni per X. L'obiettivo dei test di ipotesi è valutare se vi è sufficiente evidenza statistica per rifiutare un'ipotesi nulla in favore dell'ipotesi alternativa. L'ipotesi nulla si indica di solito con H0, mentre l'ipotesi alternativa con H1. Un'ipotesi che specifica una singola distribuzione per X si dice semplice; un'ipotesi che ne specifica più di una X si dice invece composta.

Un test di ipotesi conduce a una decisione statistica; la conclusione potrà essere di rifiutare l'ipotesi nulla in favore di quella alternativa, o di non poter rifiutare l'ipotesi nulla. Ovviamente la decisione che prendiamo è basata sui dati di cui disponiamo X. Pertanto, dobbiamo trovare un sottinsieme R dello spazio campionario S e rifiutare H0 se e solo se X appartiene a R. L'insieme R è detto regione di rifiuto o regione critica. Usualmente, la regione critica è definita in funzione di una statistica W(X), detta statistica test.

Errori

La decisione che prendiamo può essere corretta o errata. Esistono due tipi di errore, a seconda di quale delle due ipotesi è vera:

  1. Un errore di prima specie consiste nel rifiutare l'ipotesi nulla quando è vera.
  2. Un errore di seconda specie consiste nel non rifiutare l'ipotesi nulla quando è falsa.

Similmente, esistono due modi di prendere una decisione corretta: possiamo rifiutare l'ipotesi nulla quando è falsa o non rifiutare l'ipotesi nulla quando è vera. Le possibilità sono riportate nella tabella seguente:

Test di ipotesi Decisione
Non rifiuto H0 Rifiuto H0
Stato reale H0 è vera Decisione corretta Errore di prima specie
H0 è falsa Errore di seconda specie Decisione corretta

Se H0 è vera (cioè la distribuzione di X è specificata da H0), allora P(X in R) è la probabilità di un errore di prima specie per questa distribuzione. Se H0 è composta, allora H0 specifica una varietà di distribuzioni per X e pertanto esiste un insieme di probabilità di errori di prima specie. La massima probabilità di un errore di prima specie è detta livello di significatività del test o ampiezza della regione critica, che indicheremo con r. Di solito si costruisce la regione di rifiuto in modo che il livello di significatività sia un valore prefissato e piccolo (tipicamente 0.1, 0.05, 0.01).

Se H1 è vera (cioè la distribuzione di X è specificata da H1), allora P(X appartiene a Rc) è la probabilità di un errore di seconda specie per questa distribuzione. Di nuovo, se H1 è composta, allora H1 specifica una varietà di distribuzioni per X, ed esiste quindi un insieme di probabilità di errori di seconda specie. Esiste di solito un compromesso tra le probabilità di errori di prima e seconda specie. Se riduciamo la probabilità di un errore di prima specie, riducendo l'ampiezza della regione R incrementiamo necessariamente la probabilità di errore di seconda specie, poiché Rc è più grande.

Potenza

Se H1 è vera (cioè la distribuzione di X è specificata da H1), allora P(X appartiene a R), la probabilità di rifutare H0 (e prendere quindi una decisione corretta), è detta potenza del test.

Supponiamo di avere due test, a cui corrispondono rispettivamente le regioni di rifiuto R1 e R2, ciascuna con livello di significatività r. Il test con regione R1 è uniformemente più potente del test con regione R2 se

P(X appartiene a R1) >=P(X appartiene a R2) per ogni distribuzione di X specificata da H1.

Ovviamente, in questo caso, preferiremmo il primo test. Infine, se un test ha livello di significativtità r ed è uniformemente più potente di ogni altro test con livello di significativtà r, allora il test si dice uniformemente più potente al livello a. Un test del genere è il migliore di cui possiamo disporre.

p-value

Nella maggior parte dei casi si dispone di una procedura generale che ci consente di costruire un test (cioè una regione di rifiuto Rr) per ogni dato livello di significativtà r. Tipicamente, Rr decresce (nel senso della dimensione del sottinsieme) al crescere di a. In questo contesto, il p-value della variabile X, indicato come p(X) è definito come il più piccolo r per cui X appartiene a Rr; cioè il minor livello di significatività per cui H0 sarebbe rifiutata dato X. Conoscere p(X) ci consente di testare H0 ad ogni livello di significatività, sulla base dei dati: se p(X) <= r, allora rifiuteremo H0 al livello di significatività r; se p(X) > r, non rifiuteremo H0 al livello di significatività r. Nota che p(X) è una statistica.

Test su un parametro ignoto

Il test di ipotesi è un concetto generale, ma un caso particolare importante si ha quando la distribuzione della variabile X dipende da un parametro a, che assume valori in uno spazio parametrico A. Ricorda che, usualmente, a è un vettore di parametri reali A sottinsieme Rk per un certo k. L'ipotesi, di solito, ha forma

H0: a appartiene a A0 contro H1: a appartiene a A - A0

dove A0 è un sottinsieme di A. In questo caso, la probabilità di compiere un errore (o di prendere una decisione corretta) dipende dal valore vero di a. Se R è la regione di rifiuto, allora la funzione di potenza è

Q(a) = P(X appartiene a R | a) per a appartiene a A.

Esercizio teorico 1. Dimostra che

  1. Q(a) è la probabilità di un errore di prima specie quando a appartiene a A0.
  2. max{Q(a): a appartiene a A0} è il livello di significativtà del test.

Esercizio teorico 2.Dimostra che

  1. 1 - Q(a) è la probabilità di un errore di seconda specie quando a appartiene a A - A0.
  2. Q(a) è la potenza del test quando a appartiene a A - A0.

Supponiamo di avere due test, che corrispondono rispettivamente alle regioni di rifiuto R1 e R2, ciascuno con livello di significativtà r. Il test con regione R1 è uniformemente più potente del test con regione R2 se

QR1(a) >=QR2(a) per a appartiene a A - A0.

La maggior parte dei test riguardanti un parametro reale ignoto a ricadono nei tre casi speciali:

  1. H0: a = a0 contro H1: a diverso da a0.
  2. H0 : a >= a0 contro H1: a < a0.
  3. H0 : a <= a0 contro H1: a > a0.

dove a0 è un valore dato. Il caso 1 è noto come test bidirezionale, il caso 2 come test unidirezionale sinistro e il caso 3 come test unidirezionale destro (sulla base dell'alternativa). Possono esserci altri parametri ignoti oltre ad a (detti parametri di disturbo).

Equivalenza tra test di ipotesi e stima intervallare

Esiste un'equivalenza tra test di ipotesi e stima intervallare per un parametro a.

Esercizio teorico 3. Supponi che [L(X), U(X)] sia un intervallo di confidenza al livello 1 - r per a. Mostra che il test sotto riportato ha livello di significatività r per l'ipotesi H0: a = a0 contro H1: a diverso da a0.

Rifiutare H0 se e solo se a0 < L(X) o a0 > U(X).

Esercizio teorico 4. Supponi che U(X) is a 1 - r sia un limite di confidenza superiore al livello a. Prova che il test sotto riportato ha livello di significatività r per l'ipotesi H0 : a >= a0 contro H1: a < a0.

Rifiutare H0 se e solo se a0 > U(X).

Esercizio teorico 5. Supponi che U(X) is a 1 - r sia un limite di confidenza inferiore al livello a. Prova che il test sotto riportato ha livello di significatività r per l'ipotesi H 0 : a <= a0 versus H1: a > a0.

Rifiutare H0 if and only if a0 < L(X).

Concludendo, non rifiutiamo H0 al livello di significativtà r se e solo se a0 giace nel corrispondente intervallo di confidenza al livello 1 - r.