Laboratorio virtuale > Campioni casuali > [1] 2 3 4 5 6 7 8 9

1. Introduzione


Il modello statistico di base

Come al solito, il punto da cui muoveremo è un esperimento aleatorio su un certo spazio campionario e con misura di probabilità P. Nel modello statistico di base, abbiamo una variabile casuale osservabile X (che definiamo variabile delle osservazioni) che assume valori in un insieme S. In generale, X può avere una struttura complicata. Per esempio, se l'esperimento consiste nell'estrarre soggetti da una popolazione e registrare diversi tipi di dati, allora

X = (X1, X2, ..., Xn)

dove Xi è il vettore che contiene le misurazioni dell'i-esimo oggetto. Presentiamo qui sotto alcuni esempi.

  1. Nei dati M&M, sono analizzati 30 pacchetti di M&Ms. In questa ricerca, la variabile Xi registra il conteggio dei colori delle pastiglie (ovvero rosso, verde, blu, arancio, giallo e marrone) e il peso dell'i-esimo pacchetto.
  2. Nei dati di Fisher sugli iris, si studiano 150 iris. Xi registra il tipo, la lunghezza e la larghezza dei petali, e la lunghezza e la larghezza dei sepali per l'i-esimo fiore.
  3. Per i dati sulla cicala, sono state catturate 104 cicale. In questo caso, Xi regsitra il peso corporeo, la lunghezza, il sesso, la specie e lunghezza e larghezza delle ali per l'i-esima cicala.

D'altro canto, il senso ultimo dell'astrazione matematica è l'abilità di isolare le caratteristiche non rilevanti per trattare una struttura complessa come un oggetto singolo. Pertanto, anche se X può essere anche un vettore di vettori, quello che è fondamentale è che sia la variabile casuale di un esperimento.

La statistica si divide in due ampi rami. Col termine statistica descrittiva ci si riferisce a metodi per sommarizzare e presentare i dati osservati x. La statistica inferenziale invece si occupa di metodi per estrarre dai dati osservati x informazioni sulla distribuzione di X. Pertanto, in un certo senso, la statistica inferenziale è l'altra faccia del calcolo delle probabilità. In quest'ultimo si cerca di prevedere il valore di X assumendo nota la sua distribuzione. In statistica, al contrario, si osserva il valore di X e si cerca di inferire informazioni sulla distribuzione sottostante.

Le tecniche statistiche hanno incontrato un enorme successo e sono largamente utilizzate praticamente in ogni scienza in cui le variabili di interesse sono quantificabili: scienze naturali, scienze sociali, giurisprudenza e medicina. D'altra parte, il fatto che la statistica sia una disciplina altamente formalizzata e l'ampio utilizzo di terminologia specifica possono rendere l'argomento ostico per un neofita. In questo paragrafo definiremo alcuni dei concetti più importanti.

Tipi di variabili

Ricorda che una variabile reale è continua se i valori che è suscettibile di assumere formano un intervallo di numeri reali. Per esempio, la varianile peso nei dati M&M e la lunghezza e la larghezza nei dati di Fisher sugli iris sono variabili continue. Al contrario, i valori che una variabile discreta può assumere costituiscono un insieme numerabile. Per esempio, le variabili di conteggio nei dati M&M , la variabile tipo nei dati di fisher sugli iris e il numero e il seme in un'estrazione di carte sono variabili discrete Le variabili continue identificano variabili che, almeno in teoria, possono essere misurate con infinita precisione. In pratica, ovviamente, gli apparecchi di misura hanno precisione finita, per cui i dati raccolti sono necessariamente discreti, ovvero esiste solo un insieme di valori finito (ma anche molto grande) di valori possibili che possono essere misurati.

Una variabile reale è contraddistinta altresì dal suo livello di misura, che determina le operazioni matematiche che hanno senso su quella variabile. Le variabili qualitative codificano diverse tipologie di oggetti e pertanto nessuna operazione matematica ha senso, anche se si utilizzano numeri per la codifica. Tali variabili si dicono misurate su scala nominale. Per esempio, la variabile tipo nei dati di Fisher sugli iris è qualitativa. Una variabile per cui ha senso solo un confronto di ordine si dice misurata su scala ordinale; le differenze non hanno senso neppure la codifca è numerica. Per esempio, in molti giochi di carte i semi sono ordinati, per cui la variabile seme è misurata su scala ordinale. Una variabile quantitativa per cui hanno senso le differenza ma non i rapporti si dice misurata su scala intervallare. Ciò equivale a dire che una variabile ha valore di zero relativo. Esempi classici sono la temperatura (in gradi Celsius o Fahrenheit) o il tempo. Infine, una variabile quantitativa per la quale hanno senso anche i rapporti si dice misurata su scala a rapporti. Una variabile misurata su questa scala ha un valore di zero assoluto. Le variabili di conteggio e il peso nei dati M&M e le variabili lunghezza e larghezza nei dati di Fisher sugli iris possono essere presi ad esempio.

Parametri e statistica

Il termine parametro indica una variabile non casuale di un certo modello che, una volta scelta, resta costante. Quasi tutti i modelli probabilistici sono di fatto famiglie parametriche di modelli, ovvero dipendono da uno o più parametri che possono essere modificati per adattare il modello al processo che si intende descrivere. Detto in termini più formali, un parametro è una caratteristica della distribuzione della variabile osservabile X. Come al solito, esamineremo le cose da un punto di vista generale e utilizzeremo parametri potenzialmente vettoriali.

Esercizio teorico 1. Identifica i parametri in ognuno dei casi seguenti:

Una statistica è una variabile casuale che è funzione osservabile dell'esito di un esperimento:

W = W(X).

Il termine osservabile significa che la funzione non deve contenere parametri ignoti, ovvero che, alla fine dell'esperimento si deve essere in grado di calcolare il valore della statistica sulla base dell'esito. Osserva che una statistica è una variabile casuale e pertanto, come ogni vettore casuale, ha una distribuzione di probabilità. Quello che osserviamo all'atto pratico è una realizzazione di questa variabile casuale. Esattamente come X, W può avere struttura complessa; in genere, W è un vettore. Nota che anche X è una statistica, ovvero la variabile originale; tutte le altre statistiche si ricavano da X.

Le statistiche U e V si dicono equivalenti se esiste una funzione biunivoca r dal dominio di U a quello di V tale che

V = r(U).

Statistiche equivalenti danno informazioni equivalenti in termini di inferenza.

Esercizio teorico 2. Dimostra che le statistiche U e V sono equivalenti se e solo se valgono le seguenti condizioni:

U(x) = U(y) se e solo se V(x) = V(y) per x, y appartenente a S.

Esercizio teorico 3. Dimostra che l'equivalenza è in realtà una relazione di equivalenza sulla collezione di statistiche:

  1. W è equivalente a W per ogni statistica W (proprietà riflessiva).
  2. Se U è equivalente a V allora V è equivalente a U (proprietà simmetrica).
  3. Se U è equivalente a V e V è equivalente a W allora U è equivalente a W (proprietà transitiva).

Campioni casuali

Il caso più frequente e più importante di questo modello statistico si ha quando la variabile delle osservazioni ha forma

X = (X1, X2, ..., Xn).

Dove X1, X2, ..., Xn sono indipendenti e identicamente distribuite. Di nuovo, nel modello di campionamento standard, Xi è un vettore di misure per l'i-esimo oggetto del campione e pertanto possiamo vedere X1, ..., Xn come repliche indipendenti di un vettore di misure sottostante. In questo caso, si dice che (X1, X2, ..., Xn) è un campione casuale di dimensione n dalla distribuzione comune.

L'obiettivo di questo capitolo è quello di studiare i campioni casuali, la statistica descrittiva e alcune delle statistiche più importanti.