Dalam regresi linier, setiap nilai prediksi diasumsikan telah diambil dari distribusi normal dari nilai yang mungkin. Lihat di bawah.
Tetapi mengapa masing-masing nilai prediksi diasumsikan berasal dari distribusi normal? Bagaimana regresi linier menggunakan asumsi ini? Bagaimana jika nilai yang mungkin tidak terdistribusi secara normal?
Jawaban:
Regresi linier dengan sendirinya tidak memerlukan asumsi normal (gaussian), estimator dapat dihitung (dengan linear kuadrat terkecil) tanpa memerlukan asumsi seperti itu, dan masuk akal tanpanya.
Tetapi kemudian, sebagai ahli statistik kami ingin memahami beberapa sifat metode ini, jawaban atas pertanyaan seperti: apakah penduga kuadrat terkecil optimal dalam beberapa hal? atau dapatkah kita berbuat lebih baik dengan beberapa penaksir alternatif? Kemudian, di bawah distribusi normal istilah kesalahan, kami dapat menunjukkan bahwa penaksir ini memang, memang, optimal, misalnya mereka "tidak memihak varian minimum", atau kemungkinan maksimum. Tidak ada hal seperti itu dapat dibuktikan tanpa asumsi normal.
Juga, jika kita ingin membangun (dan menganalisis sifat) interval kepercayaan atau tes hipotesis, maka kita menggunakan asumsi normal. Tapi, kita bisa membangun interval kepercayaan dengan beberapa cara lain, seperti bootstrap. Kemudian, kita tidak menggunakan asumsi normal, tetapi, sayangnya, tanpa itu, bisa jadi kita harus menggunakan beberapa estimator lain daripada yang paling kecil, mungkin beberapa estimator yang kuat?
Dalam praktik, tentu saja, distribusi normal paling tidak merupakan fiksi yang nyaman. Jadi, pertanyaan yang sangat penting adalah, seberapa dekat dengan normalitas kita harus mengklaim untuk menggunakan hasil yang disebutkan di atas? Itu pertanyaan yang jauh lebih sulit! Hasil optimalitas tidak kuat , sehingga penyimpangan yang sangat kecil dari normalitas dapat merusak optimalitas. Itu adalah argumen yang mendukung metode yang kuat. Untuk taktik lain pada pertanyaan itu, lihat jawaban saya untuk Mengapa kita harus menggunakan kesalahan alih-alih kesalahan normal?
Pertanyaan lain yang relevan adalah Mengapa normalitas residu "hampir tidak penting sama sekali" untuk tujuan memperkirakan garis regresi?
Jawaban ini mengarah pada diskusi besar dalam komentar, yang sekali lagi mengarah ke pertanyaan baru saya: Regresi linier: apakah distribusi tidak normal memberikan identitas OLS dan MLE? yang sekarang akhirnya mendapatkan (tiga) jawaban, memberikan contoh di mana distribusi tidak normal menyebabkan penduga kuadrat terkecil.
sumber
Diskusi ini Bagaimana jika residu terdistribusi normal, tetapi y tidak? telah menjawab pertanyaan ini dengan baik.
Singkatnya, untuk masalah regresi, kita hanya mengasumsikan bahwa respons dikondisikan normal pada nilai x. Tidak perlu bahwa variabel independen atau respons independen.
sumber
Tidak ada alasan mendalam untuk itu, dan Anda bebas untuk mengubah asumsi distribusi, pindah ke GLM, atau ke regresi yang kuat. LM (distribusi normal) populer karena mudah dihitung, cukup stabil dan residu dalam praktiknya sering lebih atau kurang normal.
Seperti halnya regresi, model linier (= regresi dengan kesalahan normal) mencari parameter yang mengoptimalkan kemungkinan asumsi distribusi yang diberikan. Lihat di sini untuk contoh perhitungan eksplisit kemungkinan untuk model linier. Jika Anda mengambil kemungkinan log model linear, ternyata proporsional dengan jumlah kuadrat, dan optimasi yang dapat dihitung dengan cukup mudah.
Jika Anda ingin menyesuaikan model dengan distribusi yang berbeda, langkah-langkah buku teks berikutnya akan menjadi model linier umum (GLM), yang menawarkan distribusi yang berbeda, atau model linier umum, yang masih normal, tetapi santai saja. Banyak pilihan lain dimungkinkan. Jika Anda hanya ingin mengurangi efek pencilan, Anda bisa mempertimbangkan regresi yang kuat.
sumber
Setelah meninjau kembali pertanyaan itu, saya pikir tidak ada alasan untuk menggunakan distribusi normal kecuali jika Anda ingin melakukan semacam inferensi tentang parameter regresi. Dan Anda dapat menerapkan regresi linier dan mengabaikan distribusi istilah kebisingan.
sumber
sumber