Laboratorio virtuale > Stima intervallare > 1 2 3 4 [5] 6

5. Stima nel modello normale bivariato


In questo paragrafo studieremo i problemi di stima dei modelli normale a due campioni e normale bivariato. Questo paragrafo si svolge parallelamente a quello sui test nel modello normale bivariato nel capitolo sul test di ipotesi.

Il modello normale a due campioni

Supponiamo che X = (X1, X2, ..., Xn1) sia un campione casuale di dimensione n1 di una distribuzione normale con media µ1 e varianza d12 e che Y = (Y1, Y2, ..., Yn2) sia un campione casuale di dimensione n2 di una distribuzione normale con media µ2 e varianza d22. Supponiamo inoltre che i campioni X e Y siano indipendenti.

Situazioni di questo tipo si presentano di frequente quando le variabili casuali rappresentano una misura di interesse sulle unità della popolazione, e i due campioni corrispondono a due diversi trattamenti. Per esempio, possiamo essere interessati alla pressione sanguigna di una certa popolazione di pazienti. Il vettore X registra la pressione sanguigna di un campione di controllo, mentre il vettore Y registra la pressione di un campione che assume un nuovo farmaco. Similmente, potremmo essere interessati alla produttività di un campo di grano. Il vettore X registra il raccolto di un appezzamento trattato con un tipo di fertilizzante, mentre il vettore Y registra il raccolto di un altro appezzamento trattato con un diverso tipo di fertilizzante.

Di solito si è interessati a un confronto tra i parametri (media o varianza) delle due distribuzioni da cui si campiona. In questo paragrafo impareremo a costruire intervalli di confidenza per il rapporto tra varianze e la differenza tra le medie. Come abbiamo già visto in precedenza per altri problemi di stima, le procedure differiscono a seconda del fatto che i parametri siano noti oppure no. Inoltre, gli elementi chiave sono le medie campionarie, le varianze campionarie e le proprietà di queste statistiche nel caso della distribuzione normale. Useremo la seguente notazione:

  1. M1 = (1 / n1)sommatoriai = 1, ..., n1 Xi.
  2. W12 = (1 / n1)sommatoriai = 1, ..., n1 (Xi - µ1)2.
  3. S12 = [1 / (n1 - 1)]sommatoriai = 1, ..., n1 (Xi - M1)2.
  4. M2 = (1 / n2)sommatoriai = 1, ..., n2 Xi.
  5. W22 = (1 / n2)sommatoriai = 1, ..., n2 (Xi - µ2)2.
  6. S22 = [1 / (n2 - 1)]sommatoriai = 1, ..., n2 (Xi - M2)2.

Intervalli di confidenza per d22 / d12 con µ1 e µ2 note

Consideriamo in primo luogo il problema della stima del rapporto tra varianze d22 / d12 sotto l'ipotesi che le medie µ1 e µ1 siano note. Al solito, questa assunzione è spesso irrealistica.

Esercizio teorico 1. Prova che F = (W12 / d12) / (W22 / d22) ha distribuzione F con n1 gradi di libertà al numeratore e n2 gradi di libertà al denominatore.

Segue che F è una variabile pivot per d22 / d12. Per p appartenente a (0, 1) e per m > 0 e k >0, sia fm, n, p il quantile di ordine p della distribuzione F con m gradi di libertà al numeratore e n gradi di libertà al denominatore. Per dati valori di m, n e p, fm, n, p può essere calcolata utilizzando l'applet quantile.

Esercizio teorico 2. Usa la variabile pivot F per mostrare che intervallo di confidenza al livello 1 - r e limite di confidenza inferiore e superiore per d22 / d12 sono:

  1. [fn1, n2, r/2 W22 / W12, fn1, n2, 1 - r/2 W22 / W12].
  2. fn1, n2, 1 - r W22 / W12.
  3. fn1, n2, r W22 / W12.

Intervalli di confidenza per d22 / d12 con µ1 e µ2 ignote

Consideriamo ora il problema della stima del rapporto tra varianze d22 / d12 sotto l'ipotesi, più realistica, che le medie µ1 e µ1 siano ignote.

Esercizio teorico 3. Prova che F = (S12 / d12) / (S22 / d22) hae distribuzione F con n1 - 1 gradi di libertà al numeratore e n2 - 1 gradi di libertà al denominatore.

Segue che F è variabile pivot per d22 / d12.

Esercizio teorico 4. Usa la variabile pivot F per mostrare che intervallo di confidenza al livello 1 - r e limite di confidenza inferiore e superiore per d22 / d12 sono:

  1. [fn1 - 1, n2 - 1, r/2 S22 / S12, fn1 - 1, n2 - 1, 1 - r/2 S22 / S12].
  2. fn1 - 1, n2 - 1, 1 - a1 - 1, n2 - 1, 1 - r S22 / S12.
  3. fn1 - 1, n2 - 1, r S22 / S12.

Intervalli di confidenza per µ2 - µ1 con d1 e d2 note

Consideriamo ora il problema della stima della differenza tra medie µ2 - µ1 sotto l'ipotesi che le deviazioni standard d1 e d2 siano note. Ovviamente questa assunzione è spesso poco realistica.

Esercizio teorico 5. Prova che M2 - M1 ha distribuzione normale con media µ2 - µ1 e varianza d12 / n1 + d22 / n2.

Esercizio teorico 6. Prova che Z = [(M2 - M1) - (µ2 - µ1)] / (d12 / n1 + d22 / n2)1/2 ha distribuzione normale standardizzata.

Z è variabile pivot per µ2 - µ1. Al solito, per p appartenente a (0, 1), indicheremo con zp il quantile di ordine p della normale standardizzata.

Esercizio teorico 7. Usa la variabile pivot Z per mostrare che intervallo di confidenza al livello 1 - r e limite di confidenza inferiore e superiore per µ2 - µ1 sono:

  1. [(M2 - M1) - z1 - r/2 (d12 / n1 + d22 / n2)1/2,
    (M2 - M1) + z1 - r/2 (d12 / n1 + d22 / n2)1/2].
  2. (M2 - M1) + z1 - r (d12 / n1 + d22 / n2)1/2.
  3. (M2 - M1) - z1 - r (d12 / n1 + d22 / n2)1/2.

Intervalli di confidenza per µ2 - µ1 con d1 e d2 ignote

Consideriamo infine il problema della stima della differenza tra medie µ2 - µ1 sotto l'ipotesi, più realistica, che le deviazioni standard d1 e d2 siano ignote. In questo caso è più difficile trovare una variabile pivot adatta, ma possiamo esaminare il caso in cui le deviazioni standard sono uguali. Assumiamo pertanto che

d1 = d2 = d e che il valore comune d sia ignoto.

Questa assunzione è ragionevole se esiste una variabilità inerente alla misurazione che non cambia applicando diversi trattamenti alle unità della popolazione.

Esercizio teorico 8. Dimostra che Z = [(M2 - M1) - (µ2 - µ1)] / [d(1 / n1 + 1 / n2)1/2] ha distribuzione normale standardizzata.

Per costruire l'elemento pivotale, abbiamo bisogno di una stima puntaule di d2. Un'idea naturale è quella di considerare una somma ponderata delle varianze campionarie S12 e S22, con gradi di libertà pari ai fattori di peso (questa è detta pooled estimate di d2). Sia quindi

S2 = [(n1 - 1)S12 + (n2 - 1)S22] / (n1 + n2 - 2).

Esercizio teorico 9. Dimostra che V = (n1 + n2 - 2)S2 / d2 ha distribuzione chi-quadro con n1 + n2 - 2 gradi di libertà. Suggerimento: (ni - 1)Si2 / d2 ha distribuzione chi-quadro con ni - 1 gradi di libertà per i = 1 e 2, e queste variabili sono indipendenti.

Esercizio teorico 10. Prova che M2 - M1 e S2 sono indipendenti. Suggerimento: (M1, S1) e (M2, S2) sono indipendenti, M1 e S1 sono indipendenti, e M2 e S2 sono indipendenti.

Esercizio teorico 11. Mostra che T = [(M2 - M1) - (µ2 - µ1)] / [S(1 / n1 + 1 / n2)1/2] ha distribuzione t con n1 + n2 - 2 gradi di libertà. Suggerimento: Prova che T = Z / [V / (n1 + n2 - 2)]1/2, dove Z è la variabile casuale dell'esercizio 8 e V è la variabile casuale dell'esercizio 9. Inoltre, Z e V sono indipendenti (esercizio 10).

Dall'esercizio 11, segue che T è una variabile pivot per µ2 - µ1. Per k > 0 e p appartenente a (0, 1) sia tk, p il quantile di ordine p della distribuzione t con k gradi di libertà. Per dati valori di k e p, i valori di tk, p si ricavano dalla tavola della distribuzione t di Student o dall'applet quantile.

Esercizio teorico 12. Usa l'elemento pivotale T per mostrare che intervallo di confidenza al livello 1 - r e limite di confidenza inferiore e superiore per µ2 - µ1 sono:

  1. [(M2 - M1) - tn1 + n2 - 2, 1 - a/21 + n2 - 2, 1 - r/2 S(1 / n1 + 1 / n2)1/2,
    (M2 - M1) + tn1 + n2 - 2, 1 - a/21 + n2 - 2, 1 - r/2 S(1 / n1 + 1 / n2)1/2].
  2. (M2 - M1) + tn1 + n2 - 2, 1 - a1 + n2 - 2, 1 - r S(1 / n1 + 1 / n2)1/2.
  3. (M2 - M1) - tn1 + n2 - 2, 1 - r S(1 / n1 + 1 / n2)1/2.

Stima nel modello normale bivariato

Consideriamo ora un modello simile a quello normale a due campioni, ma molto più semplice. Supponiamo che

(X1, Y1), (X2, Y2), ..., (Xn, Yn)

sia un campione casuale di dimensione n dalla distribuzione normale bivariata (X, Y) con

E(X) = µ1, E(Y) = µ2, var(X) = d12, var(Y) = d22, cov(X, Y) = d1,2.

Pertanto, invece che una coppia di campioni, abbiamo un campione di coppie. Questo tipo di modello si presenta di frequente negli esperimenti prima e dopo, in cui si registra una misura di interesse su un campione di n unità della popolazione prima e dopo un certo trattamento. Per esempio, possiamo registrare la pressione sanguigna su un campione di n pazienti prima e dopo la somministrazione di un certo farmaco. Così come nel caso dei due campioni, si è di solito interessati a confrontare la differenza tra le medie.

Indicheremo medie e varianze campionarie di X e Y, e la covarianza campionaria come

M1, M2, S12, S22, S12.

Esercizio teorico 13. Prova che Y1 - X1, Y2 - X2, ..., Yn - Xn è un campione casuale di dimensione n da una distribuzione normale con media µ2 - µ1 e varianza d2 = d12 + d22 - 2d1,2.

Dall'esercizio 31, le differenze seguono il modello normale semplice a un campione.

Esercizio teorico 14. Mostra che media e varianza campionaria delle differenze valgono

  1. M = M2 - M1.
  2. S2 = S12 + S22 - 2S12.

Esercizio teorico 15. Dimostra che, se d è nota, allora l'intervallo di confidenza al livello 1 - a e i limiti di confidenza inferiore e superiore sono i seguenti, dove i quantili sono quelli della normale standardizzata:

  1. [M - z1 - a/2 d / n1/2, M + z1 - a/2 d / n1/2].
  2. M + z1 - a d / n1/2.
  3. M - z1 - a d / n1/2.

Esercizio teorico 16. Prova che, se d è ignoto, allora l'intervallo di confidenza al livello 1 - a e i limiti di confidenza inferiore e superiore sono i seguenti, dove i quantili sono quelli di una distribuzione t con n - 1 gradi di libertà:

  1. [M - tn - 1, 1 - r/2 S / n1/2, M + tn - 1, 1 - r/2 S / n1/2].
  2. M + tn - 1, 1 - r S / n1/2.
  3. M - tn - 1, 1 - r S / n1/2.

Esercizio teorico 17. Supponi che X = (X1, X2, ..., Xn) Y = (Y1, Y2, ..., Yn) siano campioni indipendenti di distribuzioni normali. Questi dati seguono entrambi i modelli: quello normale a due campioni e quello normale bivariato. Quale procedura è preferibile per stimare la differenza tra le medie µ2 - µ1?

Esercizi numerici

Esercizio teorico 18. Si sta sviluppando un nuovo farmaco per ridurre un componente del sangue. Un campione di 36 pazienti riceve un placebo, metre 49 pazienti sono trattati col farmaco. Le statistiche, in milligrammi, sono m1 = 87, s1 = 4, m2 = 63, s2 = 6.

  1. Trova l'intervallo di confidenza al 90% per d2 / d1.
  2. Assumendo d1 = d2, calcola l'intervallo di confidenza al 90% per µ2 - µ1.
  3. Basandoti su (a), è ragionevole l'assunzione che d1 = d2?
  4. Basandoti su (b), il farmaco è efficace?

Esercizio teorico 19. Un'azienda afferma che un composto erboristico incrementa l'intelligenza. Si sottopone a 25 soggetti un test standard per quoziente di intelligenza prima e dopo aver assunto il composto. Le statistiche sono m1 = 105, s1 = 13, m2 = 110, s2 = 17, s12 = 190. Trova l'intervallo di confidenza al 90% per µ2 - µ1. Credi a quanto afferma l'azienda?

Esercizio numerico 20. Sui dati di Fisher sugli iris, considera la lunghezza del petalo per i tipi Versicolor e Virginica.

  1. Trova l'intervallo di confidenza al 90% per d2 / d1.
  2. Assumendo d1 = d2, calcola l'intervallo di confidenza al 90% per µ2 - µ1.
  3. Basandoti su (a), ti sembra ragionevole l'assunzione che d1 = d2?

Esercizio teorico 21. Un'industria ha due macchine che producono una barra circolare il cui diametro (in cm) è importante. Un campione di 100 barre prodotte dalla prima macchina ha media 10.3 e deviazione standard 1.2, metre un campione di 100 barre prodotte dalla seconda macchina ha media 9.8 e deviazione standard 1.6.

  1. Trova l'intervallo di confidenza al 90% per d2 / d1.
  2. Assumendo d1 = d2, calcola l'intervallo di confidenza al 90% per µ2 - µ1.
  3. Basandoti su (a), ti sembra ragionevole l'assunzione che d1 = d2?