Bagaimana jika residu terdistribusi normal, tetapi y tidak?

110

Saya punya pertanyaan aneh. Asumsikan bahwa Anda memiliki sampel kecil di mana variabel dependen yang akan Anda analisis dengan model linier sederhana sangat miring. Jadi, Anda berasumsi bahwa tidak terdistribusi normal, karena ini akan menghasilkan y terdistribusi normal . Tetapi ketika Anda menghitung plot QQ-Normal ada bukti, bahwa residu terdistribusi secara normal. Dengan demikian siapa pun dapat berasumsi bahwa istilah kesalahan terdistribusi secara normal, walaupun y tidak. Jadi apa artinya, ketika istilah kesalahan tampaknya terdistribusi normal, tapi tidak?kamuyyy

MarkDollar
sumber

Jawaban:

143

Adalah masuk akal untuk residu dalam masalah regresi untuk didistribusikan secara normal, meskipun variabel responnya tidak. Pertimbangkan masalah regresi univariat di mana . sehingga model regresi sesuai, dan selanjutnya menganggap bahwa nilai sebenarnya dari β = 1 . Dalam hal ini, sementara residual dari model regresi sejati adalah normal, distribusi y tergantung pada distribusi x , karena rata-rata bersyarat dari y adalah fungsi dari x . Jika dataset memiliki banyak nilai xyN(βx,σ2)β=1yxyxxyang mendekati nol dan semakin sedikit semakin tinggi nilai , maka distribusi y akan condong ke kiri. Jika nilai x didistribusikan secara simetris, maka y akan didistribusikan secara simetris, dan sebagainya. Untuk masalah regresi, kita hanya mengasumsikan bahwa respon dikondisikan normal pada nilai x .xyxyx

Dikran Marsupial
sumber
9
(+1) Saya rasa ini tidak cukup sering diulang! Lihat juga masalah yang sama yang dibahas di sini .
Wolfgang
1
Saya mengerti jawaban Anda dan kedengarannya benar. Setidaknya Anda mendapat banyak suara positif :) Tapi saya tidak senang sama sekali. Jadi, dalam contoh Anda asumsi yang Anda buat adalah y N ( 1 x , σ 2 ) . Tetapi ketika saya memperkirakan regresi saya memperkirakan E ( y | x ) . Jadi x harus diberikan pada saat saya memperkirakan nilai tengah. Dari sini harus diikuti bahwa x adalah nilai dan saya tidak peduli bagaimana itu didistribusikan sebelum menyadarinya. Jadi y N ( v a lβ=1yN(1x,σ2)E(y|x)x adalah distribusi y . Saya tidak mengerti di mana x mempengaruhi y . yN(vSebuahlkamue,σ2)yxy
MarkDollar
4
Saya agak (senang) terkejut dengan jumlah suara juga; o) Untuk mendapatkan data yang digunakan agar sesuai dengan model regresi, Anda telah mengambil sampel dari beberapa distribusi bersama , dari mana Anda ingin memperkirakan E ( y | x ) . Namun karena y adalah fungsi (berisik) dari x , distribusi sampel y harus bergantung pada distribusi sampel x , untuk sampel tertentu. Anda mungkin tidak tertarik dengan distribusi "benar" x , tetapi distribusi sampel y tergantung pada sampel x. hal(y,x)E(y|x)yxyxx
Dikran Marsupial
2
Pertimbangkan contoh perkiraan suhu ( ) sebagai fungsi lattitude ( x ). Distribusi nilai y dalam sampel kami akan bergantung pada tempat kami memilih untuk menempatkan stasiun cuaca. Jika kita menempatkan semuanya di kutub atau khatulistiwa, maka kita akan memiliki distribusi bimodal. Jika kita menempatkannya pada kisi-kisi luas sama reguler, kita akan mendapatkan distribusi nilai y secara unimodal , meskipun fisika iklim sama untuk kedua sampel. Tentu saja ini akan memengaruhi model regresi Anda yang pas, dan studi tentang hal semacam itu dikenal sebagai "pergeseran kovariat". HTHyxyy
Dikran Marsupial
Saya menduga juga bahwa bersyarat pada asumsi implisit bahwa data yang digunakan adalah sampel pertama dari distribusi bersama operasional p ( y , x ) . E(y|x)hal(y,x)
Dikran Marsupial
100

@DikranMarsupial memang benar, tentu saja, tetapi terlintas dalam benak saya bahwa mungkin lebih baik untuk mengilustrasikan maksudnya, terutama karena kekhawatiran ini tampaknya sering muncul. Secara khusus, residu model regresi harus didistribusikan secara normal agar nilai-p menjadi benar. Namun, bahkan jika residu terdistribusi secara normal, itu tidak menjamin bahwa akan menjadi (bukan berarti itu penting ...); itu tergantung pada distribusi XYX .

Mari kita ambil contoh sederhana (yang saya buat). Katakanlah kita sedang menguji obat untuk hipertensi sistolik terisolasi (yaitu, angka tekanan darah tinggi terlalu tinggi). Mari kita tentukan lebih lanjut bahwa bp sistolik biasanya terdistribusi dalam populasi pasien kami, dengan rata-rata 160 & SD 3, dan untuk setiap mg obat yang dikonsumsi setiap hari, bp sistolik turun 1 mmHg. Dengan kata lain, nilai sebenarnya dari adalah 160, dan ß 1 adalah -1, dan fungsi pembangkit data yang benar adalah: B P s y s = 160 - 1 × dosis obat harian + εβ0β1 Dalam penelitian fiktif kami, 300 pasien ditugaskan secara acak untuk mengonsumsi 0mg (plasebo), 20mg, atau 40mg obat baru ini per hari. (Perhatikan bahwa X tidak terdistribusi secara normal.) Kemudian, setelah periode waktu yang cukup untuk obat tersebut berlaku, data kami mungkin terlihat seperti ini:

BPsys=160-1×dosis obat harian+εdimana εN(0,9)
X

masukkan deskripsi gambar di sini

(Saya jittered dosis sehingga poin tidak akan tumpang tindih sehingga sulit untuk dibedakan.) Sekarang, mari kita periksa distribusi (yaitu, itu distribusi marjinal / asli), dan residu: Y

masukkan deskripsi gambar di sini

YY

YXhal<0,05β1

set.seed(123456789)                       # this make the simulation repeatable

b0 = 160;   b1 = -1;   b1_null = 0        # these are the true beta values
x  = rep(c(0, 20, 40), each=100)          # the (non-normal) drug dosages patients get

estimated.b1s  = vector(length=10000)     # these will store the simulation's results
estimated.b1ns = vector(length=10000)
null.p.values  = vector(length=10000)

for(i in 1:10000){
  residuals = rnorm(300, mean=0, sd=3)
  y.works = b0 + b1*x      + residuals
  y.null  = b0 + b1_null*x + residuals    # everything is identical except b1

  model.works = lm(y.works~x)
  model.null  = lm(y.null~x)
  estimated.b1s[i]  = coef(model.works)[2]
  estimated.b1ns[i] = coef(model.null)[2]
  null.p.values[i]  = summary(model.null)$coefficients[2,4]
}
mean(estimated.b1s)       # the sampling distributions are centered on the true values
[1] -1.000084                  
mean(estimated.b1ns)
[1] -8.43504e-05               
mean(null.p.values<.05)   # when the null is true, p<.05 5% of the time
[1] 0.0532                   

masukkan deskripsi gambar di sini

Hasil ini menunjukkan bahwa semuanya berjalan dengan baik.

X YX

gung
sumber
1
Jadi asumsi residu yang terdistribusi normal hanya untuk nilai-p yang benar? Mengapa nilai-p mungkin salah jika residual tidak normal?
alpukat
3
@loganecolss, itu mungkin lebih baik sebagai pertanyaan baru. Bagaimanapun, ya itu harus dilakukan w / apakah p-nilai yang benar. Jika residu Anda cukup non-normal & N Anda rendah, maka distribusi sampel akan berbeda dari yang diteorikan. Karena nilai-p adalah berapa banyak distribusi sampel yang berada di luar statistik pengujian Anda, nilai-p akan salah.
gung
0

XYX

Dovini Jayasinghe
sumber
3
Distribusi respon yang marjinal sama sekali "tidak berarti"; ini adalah distribusi marjinal dari respons (dan seringkali harus memberi petunjuk pada model selain regresi sederhana dengan kesalahan normal). Anda benar dalam menekankan bahwa distribusi bersyarat itu penting setelah kami menghibur model yang dimaksud, tetapi ini tidak menambah jawaban yang sangat baik yang sudah ada.
Nick Cox