3. Frequenze relative e distribuzioni empiriche


I campioni casuali e le loro medie campionarie si incontrano pressoché ovunque in statistica. In questo paragrafo vedremo come le medie campionarie possono essere utilizzate per stimare probabilità e funzioni di densità e di ripartizione. Al solito, iniziamo con un semplice esperimento casuale definito su un certo spazio campionario e con una certa misura di probabilità P.

Frequenze relative

Supponiamo che X sia la variabile casuale dell'esperimento, a valori in S. Osserva che X può essere il risultato completo dell'esperimento, e in questo caso S coinciderebbe con lo spazio campionario. Ricorda che la distribuzione di X è la misura di probabilità su S data da

P(A) = P(X inA) per A S.

Supponiamo ora di fissare A. Richiamiamo la variabile indicatore IA, che assume valore 1 se X appartiene ad A e 0 altrimenti. Questa variabile indicatore ha distribuzione di Bernoulli con parametro P(A).

Esercizio teorico 1. Mostra che media e varianza di IA valgono

  1. E(IA) = P(A).
  2. var(IA) = P(A)[1 - P(A)].

Supponiamo ora di ripetere indefinitamente questo esperimento e di avere così le variabili casuali X1, X2, ..., ciascuna distribuita come X. Pertnato, per ogni n, (X1, X2, ..., Xn) è un campione casuale di dimensione n estratto dalla distribuzione di X. La frequenza relativa di A per questo campione è

Pn(A) = #{i in {1, 2, ..., n}: Xi in A} / n per A S.

La frequenza relativa di A è una statistica che indica la percentuale di volte in cui A si è verificato nelle prime n replicazioni.

Esercizio teorico 2. Mostra che Pn(A) è la media campionaria di un campione casuale di dimensione n estratto dalla distribuzione di IA. Concludi quindi che

  1. E[Pn(A)] = P(A).
  2. var[Pn(A)] = P(A)[1 - P(A)] / n
  3. Pn(A) converge a P(A) as n converge a infinito (quasi certamente).

Questo caso particolare delle legge forte dei grandi numeri è fondamentale per il concetto stesso di probabilità.

Esercizio teorico 3. Mostra che, dato un certo campione, Pn soddisfa gli assiomi della misura di probabilità.

La misura di probabilità Pn individua la distribuzione empirica di X, basata sul campione casuale. Si tratta di una distribuzione discreta, concentrata sui diversi valori di X1, X2, ..., Xn. Di fatto, pone massa di probabilità 1/n su Xi per ogni i, cosicché, se i valori campionari sono distinti, la distribuzione empirica è uniforme su tali valori.

Molte applets in questo progetto sono simulazioni di esperimenti casuali che riportano eventi d'interesse. Quando si fa un esperimento, si generano replicazioni indipendenti dell'esperimento. In molti casi, l'applet indica la frequenza relativa dell'evento e il suo complementare sia numericamente che graficamente (in blu). Anche le frequenze empiriche sono riportate sia graficamente (in rosso), che numericamente.

Simulazione 4. Nell'esperimento della moneta di Buffon, L'evento d'interesse è che la moneta finisca su un'intercapedine. Esegui l'esperimento 1000 volte, aggiornando ogni 10, e osserva la convergenza della frequenza relativa dell'evento al valore di probabilità "vero".

Simulazione 5. Nell'esperimento di Bertrand, l'evento d'interesse e che una "corda aleatoria" su un cerchio sia più lunga della lunghezza di un lato del trinagolo equilatero inscritto. Esegui l'esperimento 1000 volte, aggiornando ogni 10, e osserva la convergenza della frequenza relativa dell'evento al valore di probabilità "vero".

Le sezioni seguenti analizzano diversi casi particolare di frequenze relative.

La funzione di ripartizione empirica

Supponiamo ora che X sia una variabile casuale a valori reali. Ricorda che la funzione di ripartizione di X è la funzione F definita come

F(x) = P(X <= x) per x in R.

Supponiamo ora d ripetere l'esperimento per avere X1, X2, ..., varaibili casuali indipendenti, ciascuna distribuita come X. Per ogni n, (X1, X2, ..., Xn) è un campione casuale di dimensione n tratto dalla distribuzione di X. È naturale definire la funzione di ripartizione empirica come

Fn(x) = #{i in {1, 2, ..., n}: Xi <= x} / n.

Per ogni x, Fn(x) è una statistica che indica la frequenza relativa dei valori campionari minori o uguali a x.

Esercizio teorico 6. Dimostra che

  1. Fn è crescente da 0 a 1.
  2. Fn è una funzione a gradini con "salti" per i valori distinti di X1, X2, ..., Xn.
  3. Fn è la funzione di ripartizione della distribuzione empirica basata su {X1, X2, ..., Xn}.

Esercizio teorico 7. Dimostra che, per ogni x, Fn(x) è la media campionaria di un campione casuale di dimensione n tratto dalla distribuzione della variabile I indicatore dell'evento {X <= x}. Concludi quindi che

  1. E[Fn(x)] = F(x).
  2. var[Fn(x)] = F(x) [1 - F(x)] / n.
  3. Fn(x) converge a F(x) per n converge a infinito (quasi certamente).

Densità empirica per una variabile discreta

Supponiamo ora che X sia la variabile casuale dell'esperimento base con distribuzione discreta su un insieme numerabile S. Indichiamo con f la funzione di densità di X, cosicché

f(x) = P(X = x) per x S.

Ripetiamo l'esperimento per avere X1, X2, ..., variabili casuali indipendenti, ciascuna distribuita come X. Per ogni n, (X1, X2, ..., Xn) è un campione casuale di dimensione n estratto dalla distribuzione di X. La funzione di frequenza relativa (o funzione di densità empirica) relativa al campione è data da

fn(x) = #{i in {1, 2, ..., n}: Xi = x} / n for x S.

Per ogni x, fn(x) è una statistica che indica la frequenza relativa dei valori del campione che hanno valore x.

Esercizio teorico 8. Prova che la funzione di densità empirica soddisfa i requisiti per essere una funzione di densità discreta:

  1. fn(x) >= 0 per ogni x in S.
  2. sommatoriax appartenente a S fn(x) = 1.
  3. fn è la funzione di densità della distribuzione empirica basata su {X1, X2, ..., Xn}

Esercizio teorico 9. Dimostra che, se X è a valori reali, allora la media campionaria di (X1, X2, ..., Xn) è la media della funzione di densità empirica.

Esercizio teorico 10. Prova che, per ogni x, fn(x) è la media campionaria per un campione casuale di dimensione n estratto dalla distribuzione della variabile I, indicatore dell'evento {X = x}. Concludi quindi che

  1. E[fn(x)] = f(x).
  2. var[fn(x)] = f(x)[1 - f(x)] / n
  3. fn(x) converge a f(x) as n converge a infinito.

Molte applets in questo progetto sono simulazioni di esperimenti relativi a variabili discrete. Quando si fa un esperimento, si generano replicazioni indipendenti dell'esperimento. In molti casi, l'applet indica la funzione di densità "vera" in blu e la funzione di densità empirica in rosso.

Simulazione 11. Nell'esperimento del poker, la variabile casuale è la mano che si ottiene. Esegui 1000 replicazioni aggiornando ogni 10 e osserva la convergenza della funzione di densità empirica a quella teorica.

Simulazione 12. Nell'esperimento binomiale della moneta, la variabile casuale è il numero di teste. Esegui 1000 replicazioni aggiornando ogni 10 e osserva la convergenza della funzione di densità empirica a quella teorica.

Simulazione 13. Nell'esperimento della concordanza, la variabile casuale è il numero di successi . Esegui 1000 replicazioni aggiornando ogni 10 e osserva la convergenza della funzione di densità empirica a quella teorica.

Densità empirica di una variabile continua

Ricorda, di nuovo, che la misura standard in k-dimensioni su Rk è data da

mk(A) = integraleA1dx for A Rk.

In particolare, m1 è la misura di lunghezza du R, m2 è la misura di area su R2, e m3 è la misura di volume su R3.

Supponiamo ora che X sia una variabile casuale con distribuzione continua su un sottinsieme S di Rk. Sia f la funzione di densità di X; più precisamente, f è la densità rispetto a mk. Pertanto, per definizione,

P(X A) = integraleA f(x) dx for A S.

Ripetiamo, di nuovo, l'esperimento, ottenendo le variabili casuali indipendenti X1, X2, ..., ciascuna distribuita come X. Per ogni n, (X1, X2, ..., Xn) è un campione casuale di dimensione n estratto dalla distribuzione di X.

Supponiamo ora che {Aj: j J} sia una partizione S in un insieme numerabile di sottinsiemi. Come già fatto in precedenza, possiamo definire la probabilità empirica di Aj, basata sui primi n valori campionari, come

Pn(Aj) = #{i in {1, 2, ..., n}: Xi Aj} / n.

Possiamo quindi definire la funzione di densità empirica come segue:

fn(x) = Pn(Aj) / mk(Aj) per x Aj.

Ovviamente la funzione di densità empirica fn dipende dalla partizione, ma lasciamo perdere ciò per evitare che la notazione diventi del tutto illeggibile. Naturalmente, per ogni x, fn(x) è una variabile casuale (di fatto, una statistica), ma per la definizione stessa di densità, se la partizione è sufficientemente fine (di modo che Aj sia piccolo per ogni j) e se n è sufficientemente grande, allora, per la legge dei grandi numeri si ha

fn(x) ~ f(x) per x S.

Esercizio teorico 14. Dimostra che fn soddisfa le condizioni per essere una funzione di densità di probabilità:

  1. fn(x) >= 0 per ogni x in S.
  2. integraleS fn(x)dx = 1.
  3. fn corrisponde alla distribuzione per la quale Pn(Aj) è distribuito uniformemente su Aj per ogni j.

Molte applets in questo progetto sono simulazioni di esperimenti relativi a variabili continue. Quando si fa un esperimento, si generano replicazioni indipendenti dell'esperimento. In molti casi, l'applet indica la funzione di densità "vera" in blu e la funzione di densità empirica in rosso.

Simulazione 15. Esegui l'esperimento esponenziale 1000 volte, aggiornando ogni 10. Osserva la convergenza della funzione di densità empirica a quella teorica.

Simulazione 16. Nell'applet variabile casuale, seleziona la distribuzione normale. Esegui 1000 replicazioni aggiornando ogni 10 e osserva la convergenza della funzione di densità empirica a quella teorica.

Analisi esplorativa dei dati

Molti dei concetti presentati poc'anzi sono sovente utilizzati nell'analisi esplorativa dei dati. In generale, supponiamo che x sia una variabile (in genere un vettore di variabili), rilevata su una certa popolazione, e che

x1, x2, ..., xn

siano i dati osservati su un campione di dimensione n, relativo a questa variabile. Per esempio, x può indicare il conteggio di colori (codificato) e il peso di un pacchetto di M&Ms. Sia ora {Aj: j J} una partizione dei dati, con J insieme finito di indici. Gli insiemi Aj: j J si dicono classi. Analogamente a quanto già visto, definiamo la frequenza e la frequenza relativa di Aj come segue:

Se x è una variabile continua a valori in Rk, possiamo anche definire la densità di Aj :

f(Aj) = p(Aj) / mk(Aj),

La funzione q che assegna le frequenze alle classi è nota come distribuzione di frequenza per i dati . Ugualmente, p e f definiscono rispettivamente la distribuzione di frequenza relativa e la distribuzione di densità per i dati. Se k = 1 o 2, il grafico a barre di queste distribuzioni è detto istogramma.

La ragione per cui si costruiscono e si disegnano queste distribuzioni empiriche è quella di raccogliere e presentare i dati in maniera informativa. Alcuni suggerimenti nella scelta delle classi sono i seguenti:

  1. Il numero di classi dev'essere limitato.
  2. Possibilmente, le classi devono avere la stessa dimensione.

Simulazione 17. Nell'applet istogramma interattivo, clicca sull'asse x in vari punti per generare un insieme di 20 dati. Varia l'ampiezza della classe sui 5 valori tra 0.1 e 5.0. Per ogni ampiezza di classe osserva l'istogramma delle frequenze e delle frequenze relative e valutane i cambiamenti.

È importante capire che i dati di frequenza sono scontati per una variabile continua. Supponi per esempio che la variabile casuale sia il peso (in grammi) di un pacchetto di M&Ms e che il dispositivo di misura sia preciso a 0.01 grammi. Se il peso di un pacchetto è 50.32, stiamo in realtà dicendo che il peso è compreso nell'intervallo [50.315, 50.324). Ugualmente, se due pacchetti hanno lo stesso peso misurato, l'apparente uguaglianza dei pesi è in realtà solo una finzione dovuta all'inaccuratezza del dispositivo di misura; in realtà i due pacchetti non hanno quasi certamente lo stesso peso. Pertanto due pacchetti il cui peso misurato è uguale ci danno una frequenza di 2 su un certo intervallo.

Di nuovo, esiste un trade-off tra il numero di classi e la loro dimensione; questi fattori determinano la risoluzione della distribuzione empirica. Nel caso più estremo, quando l'ampiezza delle classi è più piccola della precisione del dispositivo di misura, ogni classe contiene un unico valore distinto. In questo caso non vi è perdita di informazione e si può risalire ai dati originari dalla distribuzione di frequenza (a parte l'ordine in cui i dati erano stati ottenuti). D'altra parte, riesce difficile individuare la forma dei dati quando si hanno molte classi di piccola dimensione. All'altro estremo abbiamo una distribuzione di frequenza con un'unica classe che contiene tutti i valori. In questo caso si perde tutta l'informazione, a parte il numero dei dati originari. Al di là di questi due casi estremi, possiamo dire che la distribuzione empirica ci dà informazioni parziali e incomplete, ma può essere utilizzata per organizzare e presentare i dati in modo più comprensibile.

Simulazione 18. Nell'applet istogramma interattivo, poni l'ampiezza di classe a 0.1. Clicca sull'asse x per generare un insieme di dati con 10 valori distinti e 20 valori totali.

  1. Scrivi, sulla base della distribuzione di frequenza, i 20 valori generati.
  2. Incrementa l'ampiezza di classe a 0.2, 0.5, 1.0 e 5.0. Osserva come l'istogramma perde risoluzione, ovvero come la distribuzione di frequenza perde informazioni sui dati originari.

Esercizio numerico 19. Sui dati di Michelson, costruisci la distribuzione di frequenza per la variabile velocità della luce usando 10 classi di uguale ampiezza. Disegna l'istogramma e descrivi la forma della distribuzione.

Esercizio numerico 20. Sui dati di Cavendish, costruisci una distribuzione di frequenza relativa per la densità della variabile terra usando 5 classi di uguale ampiezza. Disegna l'istogramma e descrivi la forma della distribuzione.

Esercizio numerico 22. Coi dati M&M, costruisci la distribuzione di frequenza e l'istogramma per le variabili numero complessivo e peso.

Esercizio numerico 23. Sui dati della cicala, costruisci la distribuzione di densità e l'istogramma per la variabile peso corporeo nei casi riportati qui sotto. Osserva le differenze.

  1. Tutte le specie
  2. Ciascuna specie singolarmente
  3. Maschi e femmine singolarmente

Simulazione 24. Nell'applet istogramma interattivo, poni l'ampiezza di classe a 0.1 e clicca sull'asse per generare le distribuzioni dei tipi proposti (30 osservazioni). Aumenta l'ampiezza della classe e descrivi il tipo di distribuzione.

  1. Distribuzione uniforme
  2. Distribuzione simmetrica unimodale
  3. Distribuzione unimodale asimmetrica a destra
  4. Distribuzione unimodale asimmetrica a sinistra
  5. Distribuzione simmetrica bimodale
  6. Distribuzione a forma di u