Laboratorio virtuale > Stima intervallare > [1] 2 3 4 5 6

1. Introduzione


Il modello statistico di base

Al solito, iniziamo considerando un esperimento casuale con un certo spazio campionario e con misura di probabilità P. Nel modello statistico di base, abbiamo una variabile casuale osservabile X a valori in S. In generale, X può avere struttura complessa. Per esempio, se l'esperimento consiste nell'estrarre un campione di n unità da una popolazione e registare le misurazioni di interesse, allora

X = (X1, X2, ..., Xn)

dove Xi è il vettore di misurazioni per l'i-esima unità. Il caso particolare più importante si ha quando X1, X2, ..., Xn, sono indipendenti e identicamente distribuite. In questo caso, si ha un campione casuale di dimensione n dalla distribuzione comune.

Supponiamo inoltre che la distribuzione di X dipenda da un parametro a che assume valori in uno spazio parametrico A. Normalmente, a è un vettore di parametri reali, cosicché A è un sottinsieme di Rk per dati k e

a = (a1, a2, ..., ak).

Insiemi di confidenza

Un insieme di confidenza è un sottinsieme A(X) dello spazio parametrico A che dipende esclusivamente dalla variabile X, e non da altri parametri ignoti. Quindi, in un certo senso, è una statistica che assume come valori degli insiemi. Un insieme di confidenza è una stima di a, nel senso che ci aspettiamo che a appartenga ad A(X) con probabilità elevata. In particolare, il livello di confidenza è la più piccola probabilità che a appartenga ad A(X):

min{P[a in A(X) | a]: a in A}.

Di solito si cerca di costruire un insieme di confidenza per a con un certo livello di confidenza 1 - r, dove 0 < r < 1. Livelli di confidenza comunemente utilizzati sono 0.9, 0.95, e 0.99. A volta la cosa migliore che si può fare è costruire un insieme di confidenza il cui livello di confidenza è almeno 1 - r; questo è detto insieme di confidenza conservative 1 - r per a.

Osserva che, quando effettuiamo un esperimento e osserviamo i dati x, l'insieme di confidenza calcolato è A(x). Il valore vero del parametro a può appartenere oppure no a questo insieme, e di solito ciò è ignoto. In ogni caso, per la legge dei grandi numeri, se ripetiamo più volte l'esperimento, la proporzione di insiemi che contiene a converge a

P[a in A(X) | a) >= 1 - r.

Questo è il significato del termine confidenza.

Nota inoltre che la qualità di un intervallo di confidenza come stimatore di a, dipende da due fattori: il livello di confidenza e la dimensione dell'insieme; una buona stima ha dimensione ridotta (e pertanto definisce un intervallo ristretto per a) ed elevata confidenza. In ogni caso, per un dato X, esiste di solito un compromesso tra livello di confidenza e dimensione: aumentare il livello di confidenza implica aumentare la dimensione dell'insieme. Osserva infine che, in generale, la dimensione dell'insieme è una variabile casuale, anche se in alcuni casi è una costante.

In molte situazioni si ha interesse a stimare un certo parametro reale b = b(a). Per esempio, se a è un vettore, b può rappresentare una delle coordinate di a; le altre coordinate, in questo contesto, risulterebbero essere parametri di disturbo. In questo caso, l'insieme di confidenza ha forma

A(X) = {a in A: L(X) <= b <= U(X)}

dove L(X) e U(X) sono statistiche. In questo caso [L(X), U(X)] è detto intervallo di confidenza (bilaterale) per b. Se l'insieme di confidenza ha forma

A(X) = {a in A: L(X) <= b}

allora L(X) è detto limite inferiore di confidenza per b. Se l'insieme di confidenza ha forma

A(X) = {a in A: b <= U(X)}

allora U(X) è detto limite superiore di confidenza per b.

Se possiamo costruire un intervallo di confidenza per un parametro, allora possiamo costruire un intervallo di confidenza per una funzione del parametro.

Esercizio teorico 1. Supponi che [L, U] sia un livello di confidenza 1 - r per b e supponi che g sia una funzione definita sullo spazio parametrico A.

  1. Se g è crescente, prova che [g(L), g(U)] è l'intervallo al livello di confidenza 1 - r per g(b).
  2. Se g è decrescente, prova che [g(U), g(L)] è l'intervallo al livello di confidenza 1 -r per g(b).

Esercizio teorico 2. Supponi che L sia il limite di confidenza inferiore al livello 1 - r1 per a e che U sia il limite di confidenza inferiore al livello 1 - r2 per a. Dimostra che se r = r1 + r2 < 1 allora [L, U] è un intervallo di confidenza conservative a livello 1 - r per a. Suggerimento: Usa la disuguaglianza di Bonferroni.

Elementi pivotali

Potrebbe sembrare molto difficile costruire intervalli di confidenza per un parametro c. Tuttavia, in molti importanti situazioni, gli insiemi di confidenza possono essere costruiti semplicemente utilizzando variabili casuali note come elementi pivotali.

Una elemento pivotale per a è una variabile casuale V(X, a) funzione della variabile delle osservazioni X e del parametro a, ma la cui distribuzione non dipende da a. Supponi che V(X, a) assuma valori in T. Se conosciamo la distribuzione dell'elemento pivotale, allora per un dato r possiamo trovare B sottinsieme T (che non dipende da a) tale che

P[V(X, a) B | a] = 1 - r.

Segue quindi che un insieme di confidenza al livello 1 - r per il parametro è dato da

A(X) = {a in A: V(X, a) B}.

In molti casi, abbiamo un parametro reale a di interesse, e la variabile pivot a valori reali V(x, a) è funzione monotona di a per dati x. L'insieme di confidenza è quindi un intervallo:

Esercizio teorico 3. Prova che, se V(x, a) è monotona rispetto ad a per ogni x allora l'insieme di confidenza è un intervallo di forma

[L(X, v1), U(X, v2)].

Ci sono molti modi di costruire i numeri v1 e v2 riportati poc'anzi; la scelta ottimale è quella che rende minima la lunghezza dell'intervallo. Per r appartenente a (0, 1), sia v(r) il quantile di ordine r per la variabile pivot V(X, a) (di nuovo, questo quantile non dipende da a).

Esercizio teorico 4. Supponi che 0 < p < 1. Prova che v1 = v[(1 - p)r], v2 = v[(1 - pr)] soddisfa le condizioni per la costruzione di intervalli di confidenza.

La scelta p = 1 / 2 corrisponde a un intervallo di confidenza con code bilanciate; si tratta del tipo più utilizzato di intervalli di confidenza, ed è normalmente (ma non sempre) la scelta ottimale. Di nuovo, esiste un trade-off tra il livello di confidenza e la dimensione dell'insieme di confidenza.

Esercizio teorico 5. Sia A(X) l'insieme di confidenza ottenuto utilizzando v1 e v2 dell'esercizio precedente. Prova che, per dati p e X, A(X) è decrescente rispetto ad a e pertanto crescente rispetto a 1 - r.

Gli elementi pivotali non sono unici; è quindi importante individuare quelli che possiedono distribuzioni note e che limitano il parametro in maniera ottimale.

Esercizio teorico 6. Supponi che V sia una variabile pivot per a. Se u è una funzione definita su V e u non ha parametri ingoti, mostra che U = u(V) è anch'essa un elemento pivotale pera.

Famiglie di posizione e scala

Nel caso delle famiglie di posizione e scala di distribuzioni, possiamo individuare facilmente degli elementi pivotali. Supponi che U sia una variabile casuale a valori reali con funzione di densità g e senza parametri ignoti. Sia

X = µ + dU dove µ appartiene a R e d > 0.

Ricorda che la funzione di densità di X è

f(x | µ, d) = g[(x - µ) / d] / d

e che la corrispondente famiglia di distribuzioni è detta famiglia di posizione e scala associata alla distribuzione di U. Supponi ora che X1, X2, ..., Xn sia un campione casuale di dimensione n estratto dalla distribuzione di X. Ricorda che media campionaria e varianza campionaria sono definite rispettivamente da

  1. M = (1 / n) sommatoriai = 1, ..., n Xi.
  2. S2 = [1 / ( n - 1)] sommatoriai = 1, ..., n (Xi - M)2.

Esercizio teorico 7. Supponi che d sia noto e µ ignoto. Prova che (M - µ) / d è elemento pivotale per µ.

Esercizio teorico 8. Siano µ e d ignoti. Dimostra che (M - µ) / S è elemento pivotale per µ.

Esercizio teorico 9. Supponi che µ sia noto e d ignoto. Mostra che (M - µ) / d è elemento pivotale per d.

Esercizio teorico 10. Supponi che µ e d siano ignoti. Prova che S / d è elemento pivotale per d.

La famiglia di posizione e scala più importante è la normale. Il problema della stima dei parametri di questa famiglia di distribuzioni è esaminato nei prossimi due paragrafi. Ci occuperemo qui di seguito di alcuni altri problemi.

La distribuzione esponenziale

Supponi che X1, X2, ..., Xn sia un campione casuale di dimensione n della distribuzione esponenziale con parametro di scala b > 0.

Esercizio teorico 11. Dimostra che 2nM / b ha distribuzione chi-quadro con 2n gradi di libertà, ed è pertanto variabile pivot per b.

Osserva che la variabile dell'esercizio 11 è un multiplo di quella dell'esercizio 9 (per µ = 0). Per p appartenente a (0, 1), sia vp il quantile di ordine p della distribuzione chi-quadro con 2n gradi di libertà.

Esercizio teorico 12. Usa la variabile pivot dell'esercizio precedente per dimostrare che l'intervallo a lievllo di confidenza 1 - r e i limiti di confidenza inferiore e superiore sono dati da:

  1. [2nM / v1 - r/2, 2nM / vr/2]
  2. 2nM / vr.
  3. 2nM / v1 - r.