Kecuali saya salah, dalam model linier, distribusi respons diasumsikan memiliki komponen sistematis dan komponen acak. Istilah kesalahan menangkap komponen acak. Oleh karena itu, jika kita mengasumsikan bahwa istilah kesalahan terdistribusi secara normal, bukankah itu menyiratkan bahwa responsnya juga terdistribusi secara normal? Saya pikir memang demikian, tetapi pernyataan seperti di bawah ini agak membingungkan:
Dan Anda dapat melihat dengan jelas bahwa satu-satunya asumsi "normalitas" dalam model ini adalah residual (atau "kesalahan" ) harus didistribusikan secara normal. Tidak ada asumsi tentang distribusi prediktor atau variabel respons .x i y i
Sumber: Prediktor, respons, dan residu: Apa yang sebenarnya perlu didistribusikan secara normal?
sumber
Jawaban:
Model OLS standar adalah dengan untuk tetap .ε ∼ N ( → 0 , σ 2 I n )Y= Xβ+ ε ε ∼ N( 0⃗ , σ2sayan) X∈Rn×p
Ini memang berarti bahwa , meskipun ini adalah konsekuensi dari asumsi kami tentang distribusi , daripada benar-benar menjadi asumsi. Juga perlu diingat bahwa saya sedang berbicara tentang distribusi bersyarat dari , tidak distribusi marjinal . Saya fokus pada distribusi bersyarat karena saya pikir itulah yang sebenarnya Anda tanyakan.ε Y YY|{X,β,σ2}∼N(Xβ,σ2In) ε Y Y
Saya pikir bagian yang membingungkan adalah bahwa ini tidak berarti bahwa histogram akan terlihat normal. Kami mengatakan bahwa seluruh vektor adalah gambar tunggal dari distribusi normal multivariat di mana setiap elemen memiliki rata-rata berpotensi berbeda . Ini tidak sama dengan menjadi sampel normal iid. Kesalahan sebenarnya adalah sampel awal sehingga histogram dari mereka akan terlihat normal (dan itulah sebabnya kami melakukan plot QQ dari residu, bukan responsnya).Y E ( Y i | X i ) = X T i β εY Y E(Yi|Xi)=XTiβ ε
Berikut ini sebuah contoh: misalkan kita mengukur ketinggian untuk sampel kelas 6 dan kelas 12. Model kami adalah dengan . Jika kita melihat histogram kita mungkin akan melihat distribusi bimodal, dengan satu puncak untuk siswa kelas 6 dan satu puncak untuk siswa kelas 12, tetapi itu tidak mewakili pelanggaran asumsi kami.H i = β 0 + β 1 I ( kelas 12 ) + ε i ε i ∼ iid N ( 0 , σ 2 ) H iH Hi=β0+β1I(12th grader)+εi εi∼ iid N(0,σ2) Hi
sumber
Bahkan tidak jauh. Cara saya mengingat ini adalah bahwa residual adalah normal pada bagian deterministik model . Berikut ini adalah contoh dari apa yang terlihat dalam praktik.
Saya mulai dengan secara acak menghasilkan beberapa data. Lalu saya mendefinisikan hasil yang merupakan fungsi linear dari prediktor dan memperkirakan model.
Mari kita lihat seperti apa residu ini. Saya menduga bahwa mereka harus didistribusikan secara normal, karena hasilnya
y
telah menambahkan kebisingan normal ke dalamnya. Dan memang itulah masalahnya.Namun, memeriksa distribusi y, kita dapat melihat bahwa itu jelas tidak normal! Saya telah overlay fungsi densitas dengan mean dan varians yang sama
y
, tapi itu jelas cocok!Alasan bahwa ini terjadi dalam kasus ini adalah bahwa input data bahkan tidak jauh dari normal. Tidak ada tentang model regresi ini yang memerlukan normalitas kecuali pada residual - tidak dalam variabel independen, dan tidak dalam variabel dependen.
sumber
Tidak, tidak. Misalnya, kita memiliki model yang memprediksi berat atlet Olimpiade. Sementara berat dapat didistribusikan secara normal di antara atlet di setiap olahraga, itu tidak akan berada di antara semua atlet - bahkan mungkin tidak unimodal.
sumber