Bagaimana regresi linier menggunakan distribusi normal?

26

Dalam regresi linier, setiap nilai prediksi diasumsikan telah diambil dari distribusi normal dari nilai yang mungkin. Lihat di bawah.

Tetapi mengapa masing-masing nilai prediksi diasumsikan berasal dari distribusi normal? Bagaimana regresi linier menggunakan asumsi ini? Bagaimana jika nilai yang mungkin tidak terdistribusi secara normal?

masukkan deskripsi gambar di sini

luciano
sumber
2
Hanya kesalahan mengikuti distribusi normal (yang menyiratkan probabilitas bersyarat dari Y yang diberikan X juga normal). Ini mungkin tradisional karena alasan yang berkaitan dengan teorema batas pusat. Tetapi Anda dapat mengganti normal dengan distribusi probabilitas simetris dan mendapatkan estimasi koefisien yang sama melalui kuadrat terkecil. Yang berbeda adalah kesalahan standar residual, good of of fit, dan cara Anda memvalidasi asumsi.
Kian
4
Asumsi normal terutama datang ke kesimpulan - pengujian hipotesis, CI, PI. Jika Anda membuat asumsi yang berbeda, itu akan berbeda, setidaknya dalam sampel kecil.
Glen_b -Reinstate Monica
7
Secara kebetulan, untuk regresi linier biasa, diagram Anda harus menggambarkan kurva normal secara vertikal, bukan diagonal.
Glen_b -Reinstate Monica

Jawaban:

29

Regresi linier dengan sendirinya tidak memerlukan asumsi normal (gaussian), estimator dapat dihitung (dengan linear kuadrat terkecil) tanpa memerlukan asumsi seperti itu, dan masuk akal tanpanya.

Tetapi kemudian, sebagai ahli statistik kami ingin memahami beberapa sifat metode ini, jawaban atas pertanyaan seperti: apakah penduga kuadrat terkecil optimal dalam beberapa hal? atau dapatkah kita berbuat lebih baik dengan beberapa penaksir alternatif? Kemudian, di bawah distribusi normal istilah kesalahan, kami dapat menunjukkan bahwa penaksir ini memang, memang, optimal, misalnya mereka "tidak memihak varian minimum", atau kemungkinan maksimum. Tidak ada hal seperti itu dapat dibuktikan tanpa asumsi normal.

Juga, jika kita ingin membangun (dan menganalisis sifat) interval kepercayaan atau tes hipotesis, maka kita menggunakan asumsi normal. Tapi, kita bisa membangun interval kepercayaan dengan beberapa cara lain, seperti bootstrap. Kemudian, kita tidak menggunakan asumsi normal, tetapi, sayangnya, tanpa itu, bisa jadi kita harus menggunakan beberapa estimator lain daripada yang paling kecil, mungkin beberapa estimator yang kuat?

Dalam praktik, tentu saja, distribusi normal paling tidak merupakan fiksi yang nyaman. Jadi, pertanyaan yang sangat penting adalah, seberapa dekat dengan normalitas kita harus mengklaim untuk menggunakan hasil yang disebutkan di atas? Itu pertanyaan yang jauh lebih sulit! Hasil optimalitas tidak kuat , sehingga penyimpangan yang sangat kecil dari normalitas dapat merusak optimalitas. Itu adalah argumen yang mendukung metode yang kuat. Untuk taktik lain pada pertanyaan itu, lihat jawaban saya untuk Mengapa kita harus menggunakan kesalahan alih-alih kesalahan normal?

Pertanyaan lain yang relevan adalah Mengapa normalitas residu "hampir tidak penting sama sekali" untuk tujuan memperkirakan garis regresi?

 EDIT

Jawaban ini mengarah pada diskusi besar dalam komentar, yang sekali lagi mengarah ke pertanyaan baru saya: Regresi linier: apakah distribusi tidak normal memberikan identitas OLS dan MLE? yang sekarang akhirnya mendapatkan (tiga) jawaban, memberikan contoh di mana distribusi tidak normal menyebabkan penduga kuadrat terkecil.

kjetil b halvorsen
sumber
Kesalahan kuadrat terkecil sama dengan asumsi normal.
Neil G
4
Tidak ada kontradiksi seperti itu. Sebagai contoh, teorema Gauss-Markov mengatakan bahwa kuadrat linear terkecil adalah optimal (dalam arti varian setidaknya) di antara semua estimator linier, tanpa perlu asumsi distribusi (terlepas dari varian yang ada). Kuadrat terkecil adalah prosedur numerik yang dapat didefinisikan secara independen dari model probabilistik apa pun! Model probabilistik kemudian digunakan untuk menganalisis prosedur ini dari perspektif statistik.
kjetil b halvorsen
2
@ NeilG Tentu saja MLE untuk normal adalah kuadrat terkecil tapi itu tidak menyiratkan kuadrat terkecil harus mencakup asumsi normalitas. Di sisi lain, penyimpangan besar dari normalitas mungkin membuat kuadrat pilihan yang buruk (ketika semua estimator linier buruk).
Glen_b -Reinstate Monica
1
@NeilG Apa yang saya katakan di sana sama sekali tidak menyiratkan kesetaraan LS dan normalitas, tetapi Anda mengatakan secara eksplisit mereka setara, jadi saya benar-benar tidak berpikir dua pernyataan kami bahkan mendekati tautologis.
Glen_b -Reinstate Monica
1
@Neil Bisakah Anda menunjukkan bagaimana pernyataan Anda sebenarnya menyiratkan apa yang saya katakan? Saya benar-benar tidak melihatnya.
Glen_b -Reinstate Monica
3

Diskusi ini Bagaimana jika residu terdistribusi normal, tetapi y tidak? telah menjawab pertanyaan ini dengan baik.

Singkatnya, untuk masalah regresi, kita hanya mengasumsikan bahwa respons dikondisikan normal pada nilai x. Tidak perlu bahwa variabel independen atau respons independen.

enaJ
sumber
1
  1. Tetapi mengapa masing-masing nilai prediksi diasumsikan berasal dari distribusi normal?

Tidak ada alasan mendalam untuk itu, dan Anda bebas untuk mengubah asumsi distribusi, pindah ke GLM, atau ke regresi yang kuat. LM (distribusi normal) populer karena mudah dihitung, cukup stabil dan residu dalam praktiknya sering lebih atau kurang normal.

  1. Bagaimana regresi linier menggunakan asumsi ini?

Seperti halnya regresi, model linier (= regresi dengan kesalahan normal) mencari parameter yang mengoptimalkan kemungkinan asumsi distribusi yang diberikan. Lihat di sini untuk contoh perhitungan eksplisit kemungkinan untuk model linier. Jika Anda mengambil kemungkinan log model linear, ternyata proporsional dengan jumlah kuadrat, dan optimasi yang dapat dihitung dengan cukup mudah.

  1. Bagaimana jika nilai yang mungkin tidak terdistribusi secara normal?

Jika Anda ingin menyesuaikan model dengan distribusi yang berbeda, langkah-langkah buku teks berikutnya akan menjadi model linier umum (GLM), yang menawarkan distribusi yang berbeda, atau model linier umum, yang masih normal, tetapi santai saja. Banyak pilihan lain dimungkinkan. Jika Anda hanya ingin mengurangi efek pencilan, Anda bisa mempertimbangkan regresi yang kuat.

Florian Hartig
sumber
0

Setelah meninjau kembali pertanyaan itu, saya pikir tidak ada alasan untuk menggunakan distribusi normal kecuali jika Anda ingin melakukan semacam inferensi tentang parameter regresi. Dan Anda dapat menerapkan regresi linier dan mengabaikan distribusi istilah kebisingan.

Yu Zhang
sumber
2
Tidak masuk akal bagi saya.
SmallChess
0

(xi,yi)y=βx+cβi(yiiβxic)2ηi=yi(βxi+c)βββββ

aginensky
sumber