Introduzione

1. Introduzione

Il modello di campionamento semplice

Supponiamo di avere una popolazione D di N unità. La popolazione può essere un mazzo di carte, un insieme di persone, un'urna piena di palline, o qualsiasi altro tipo di collezione. In molti casi, indichiamo semplicemente le unità con numeri da 1 a N, per cui D = {1, 2, ..., N}. In altri casi (ad esempio in quello delle carte) può essere più naturale indicare le unità con vettori. In ogni caso, D è un sottinsieme di R^k per qualche k.

L'esperimento di base consiste nell'estrarre a caso n unità dalla popolazione D e registrare la sequenza di unità estratte:

X = (X₁, X₂, ..., X_n), dove X_i appartenente a D è l'i-esima unità estratta.

Se l'estrazione avviene con reinserimento, la dimensione campionaria n può essere qualsiasi intero positivo. In questo caso, lo spazio campionario S è

S = Dⁿ = {(x₁, x₂, ..., x_n): x₁, x₂, ..., x_n in D}.

Se l'estrazione avviene senza reinserimento, la dimensione campionaria n non può essere maggior della dimensione della popolazione N. In questo caso, lo spazio campionario S è costituito da tutte le permutazioni di dimensione n estratte da D:

S = D_n = {(x₁, x₂, ..., x_n): x₁, x₂, ..., x_n in D sono distinti}.

$Esercizio teorico$ 1. Prova che

#(Dⁿ) = Nⁿ.
#(D_n) = (N)_n = N(N - 1) ··· (N - n + 1).

In entrambe le modalità di estrazione assumiamo che i campioni siano equiprobabili e quindi che la variabile esito X sia distribuita uniformemente su S; tale è il significato del termine campione casuale:

P(X A) = #(A) / #(S) per A S.

Esempi e casi particolari

Siamo particolarmente interessati ai seguenti modelli speciali:

Una popolazione dicotomica è formata da due tipi di unità. Per esempio, possiamo avere un'urna contenente palline rosse o verdi, una scatola di componenti elettronici che possono essere funzionanti o difettosi, una popolazione di soggetti che possono essere maschi o femmine, o una popolazione di animali che sono marchiati o non marchiati.
Più in generale, una popolazione multitipo è formata da unità di k tipi diversi. Per esempio, un gruppo di elettori può essere formato da democratici, repubblicani e indipendenti, o un'urna può contenere palline di diversi colori.
Un mazzo di carte standard può essere modellato da D = {1, 2, ..., 13} × {0, 1, 2, 3}, dove la prima coordinata codifica la denominazione (asso, 2-10, jack, regina, re) e la seconda coordinata il seme (picche, quadri, fiori, cuori). L'esperimento delle carte consiste nell'estrarre n carte a caso e senza reinserimento dal mazzo D. Pertanto la carta i-esima è X_i = (Y_i, Z_i) dove Y_i è la denominazione e Z_i è il seme. Il caso in cui n = 5 è l'esperimento del poker e il caso n = 13 è l'esperimento del bridge.
Lanciare n dadi bilanciati a sei facce è equivalente a scegliere un campione di dimensione n con reinserimento dalla popolazione D = {1, 2, 3, 4, 5, 6}. In generale, selezionare un campione casuale di dimensione n con reinserimento da D = {1, 2, ..., N} è equivalente a lanciare n dadi equilibrati a N facce.
Supponiamo di scegliere n persone a caso e registrare i loro compleanni. Se assumiamo che i loro compleanni siano distribuiti uniformemente nell'anno, e se ignoriamo gli anni bisestili, allora l'esperimento è equivalente ad estrarre un campione di dimensione n, con reinserimento, da D = {1, 2, ..., 365}. Similmente, possiamo registrare i mesi e le settimane di nascita.
Supponiamo di distribuire a caso n palline distinte in N caselle. L'esperimento si adatta al modello di base, in cui D è la popolazione di caselle e X_i è la casella che contiene l'i-esima pallina. Campionamento con reinserimento significa che una casella può contenere più di una pallina, campionamento senza reinserimento significa che una casella può contenere al massimo una pallina.
Supponiamo che all'acquisto di un certo prodotto (gomme da masticare o cereali, per esempio), si riceva un coupon (una figurina di calciatori o un giocattolo, per esempio), con identica probabilità di ricevere ciascuno degli N tipi. Possiamo pensare a questo esperimento come a un campionamento con reinserimento dalla popolazione dei tipi di coupon; X_i è il coupon che riceviamo all'i-esimo acquisto.

La proprietà di scambiabilità

Torniamo al modello generale consistente nell'estrarre a caso n unità dalla popolazione D, con o senza reinserimento.

$Esercizio teorico$ 2. Mostra che ogni permutazione di (X₁, X₂, ..., X_n) ha la medesima distribuzione di (X₁, X₂, ..., X_n) stesso (cioè uniforme sullo spazio campionario appropriato S).

Una sequenza di variabili casuali che godono di tale proprietà è detta scambiabile. Anche se il concetto è molto semplice da afferrare, sia intuitivamente che formalmente, è in ogni caso estremamente importante. Useremo spesso nel corso di questo capitolo la proprietà di scambiabilità.

$Esercizio teorico$ 3. Mostra che ogni sequenza di m delle n variabili esito è distribuita uniformemente sullo spazio campionario appropriato:

D^m se l'estrazione è con reinserimento.
D_m se l'estrazione è senza reinserimento.

In particolare, per ciascun modello di campionamento, X_i è distribuita uniformemente su D per ogni i.

$Esercizio teorico$ 4. Mostra che, se l'estrazione è con reinserimento, X₁, X₂, ..., X_n sono indipendenti.

Pertanto, nel caso di campionamento con reinserimento, le variabili del campione formano un campione casuale dalla distribuzione uniforme, in senso tecnico.

$Esercizio teorico$ 5. Mostra che, se l'estrazione è senza reinserimento, allora la distribuzione condizionata della sequenza di m delle variabili esito data una sequenza di altre j variabili esito è la distribuzione uniforme sull'insieme delle permutazioni di dimensione m estratte dalla popolazione quando le j unità note sono rimosse (ovviamente, m + j non può essere maggiore di n).

In particolare, X_i e X_j sono dipendenti per i e j distinti se il campionamento è senza reinserimento.

Campioni non ordinati

In molti casi, in particolare se il campionamento è senza reinserimento, l'ordine in cui le unità vengono estratte non è rilevante, ciò che importa è l'insieme (non ordinato) di unità:

W = {X₁, X₂, ..., X_n}.

Supponiamo in primo luogo che l'estrazione avvenga senza reinserimento. In questo caso, W assume valori nell'insieme di combinazioni di dimensione n estratte da D:

T = {{x₁, x₂, ..., x_n}: x₁, x₂, ..., x_n in D sono distinti}.

$Esercizio teorico$ 6. Mostra che #(T) = C(N, n)

$Esercizio teorico$ 7. Prova che W è distribuita uniformemente su T:

P(W B) = #(B) / #(T) = #(B) / C(N, n) per B T.

Suggerimento: Per ogni combinazione di dimensione n da D, esistono n! permutazioni di dimensione n.

Se l'estrazione è con reinserimento, W assume valori nella collezioni di sottinsiemi di D, di dimensione da 1 a n:

T = {{x₁, x₂, ..., x_n}: x₁, x₂, ..., x_n in D}.

$Esercizio teorico$ 8. Prova che #(T) = C(N + n - 1, n).

$Esercizio teorico$ 9. Mostra che W non è distribuita uniformemente su T.

Esercizi computazionali

$Mathematical Exercise$ 10. Supponi di estrarre un campione di dimensione 2 dalla popolazione {1, 2, 3, 4, 5, 6}. Fai la lista di tutti i campioni

Ordinati con reinserimento.
Ordinati senza reinserimento.
Non ordinati con reinserimento.
Non ordinati senza reinserimento.

$Esercizio teorico$ 11. Nell'esperimento delle carte con n = 5 carte (poker), mostra che ci sono

311875200 mani ordinate
2598960 mani non ordinate

$Esercizio teorico$ 12. Nell'esperimento delle carte con n = 13 carte (bridge), mostra che ci sono

3954242643911239680000 mani ordinate
635013559600 mani non ordinate

13. Nell'esperimento delle carte, poni n = 3. Simula 5 replicazioni e ogni volta segna le sequenza (ordinate) di carte che darebbero la stessa mano non ordinata che hai ottenuto.

$Esercizio teorico$ 14. Nell'esperimento delle carte, mostra che

Y_i è distribuita uniformemente su {1, 2, ..., 13} per ogni i.
Z_i è distribuita uniformemente su {0, 1, 2, 3} per ogni i.

$Esercizio teorico$ 15. Nell'esperimento delle carte, mostra che Y_i e Z_j sono indipendenti per ogni i e j.

$Esercizio teorico$ 16. Nell'esperimento delle carte, mostra che (Y₁, Y₂), (Z₁, Z₂) sono dipendenti. Confronta questo risultato con quello dell'esercizio precedente.

$Esercizio teorico$ 17. Supponi di estrarre una sequenza di 5 carte.

Trova la probabilità che la terza carta sia di picche.
Trova la probabilità che la seconda e la quarta carta siano regine.
Trova la probabilità condizionata che la seconda carta sia di cuori sapendo che la quinta è di cuori.
Trova la probabilità che la terza carta sia una regina e la quarta sia di cuori.

18. Replica l'esperimento delle carte 500 volte, aggiornando ogni volta. Calcola la frequenza relativa che corrisponde a ciascun valore di probabilità nell'esercizio precedente.

$Esercizio teorico$ 19. Trova la probabilità che una mano di bridge non contega "10", jack, regine, re o assi. Tale mano si dice Yarborough, in onore di Earl of Yarborough.

Il problema della chiave

Supponiamo che una persona abbia n chiavi, di cui solo una apre una certa porta. La persona prova a caso le chiavi. Indicheremo con N il numero di prova alla quale la persona trova la chiave giusta.

$Esercizio teorico$ 20. Supponi che le chiavi che non aprono vengano scartate (il che è la cosa più razionale da fare, ovviamente). Prova che

P(N = i) = 1 / n per i = 1, 2, ..., n. Quindi N ha distribuzione uniforme su {1, 2, ..., n}.
E(N) = (n + 1) / 2.
var(N) = (n² - 1) / 12.

$Esercizio teorico$ 21. Supponi che le chiavi che non aprono non vengano scartate (magari la persona ha bevuto un po' troppo). Prova che

P(N = i) = [(n - 1) / n]^{i - 1}(1 / n) for i = 1, 2, ... Quindi N ha distribuzione geometrica su {1, 2, ...} con parametro 1 / n.
E(N) = n.
var(N) = n(n - 1).