Saya membaca bahwa ini adalah kondisi untuk menggunakan model regresi berganda:
- residu model hampir normal,
- variabilitas residu hampir konstan
- residu bersifat independen, dan
- setiap variabel terkait secara linear dengan hasil.
Bagaimana 1 dan 2 berbeda?
Anda dapat melihatnya di sini:
Jadi grafik di atas mengatakan bahwa residu yang 2 standar deviasi adalah 10 dari Y-hat. Itu berarti bahwa residu mengikuti distribusi normal. Tidak bisakah Anda menyimpulkan 2 dari ini? Bahwa variabilitas residu hampir konstan?
Jawaban:
1. Distribusi residu yang normal :
Plot ini mencoba menggambarkan distribusi titik-titik dalam populasi dengan warna biru (dengan garis regresi populasi sebagai garis cyan padat), ditumpangkan pada dataset sampel dalam titik-titik kuning besar (dengan perkiraan garis regresi diplot pada garis kuning putus-putus). Jelas ini hanya untuk konsumsi konseptual, karena akan ada titik tak terbatas untuk setiap nilai ) - sehingga ini adalah diskritisasi ikonografi grafis dari konsep regresi sebagai distribusi kontinu dari nilai-nilai di sekitar rata-rata (sesuai dengan nilai prediksi variabel "independen") pada setiap nilai yang diberikan dari regresi, atau variabel penjelas.X= x
Jika kami menjalankan plot R diagnostik pada data "populasi" yang disimulasikan, kami akan ...
Varian dari residual adalah konstan sepanjang semua nilaiX.
Alur ceritanya adalah:
Secara konseptual, memperkenalkan banyak regresi atau variabel penjelas tidak mengubah ide. Saya menemukan tutorial langsung dari paket ini
swirl()
sangat membantu dalam memahami bagaimana regresi berganda benar-benar suatu proses regresi variabel dependen terhadap satu sama lain dengan meneruskan variasi residual, yang tidak dapat dijelaskan dalam model; atau lebih sederhana, bentuk vektor dari regresi linier sederhana :2. Variabilitas residu hampir konstan (Homoskedasticity) :
The masalah dengan melanggar kondisi ini adalah:
Dalam plot ini varians meningkat dengan nilai-nilai regressor (variabel penjelas), sebagai lawan tetap konstan. Dalam hal ini residu terdistribusi normal, tetapi varian dari distribusi normal ini berubah (meningkat) dengan variabel penjelas.
Perhatikan bahwa garis regresi "benar" (populasi) tidak berubah sehubungan dengan garis regresi populasi di bawah homoskedastisitas dalam plot pertama (biru tua pekat), tetapi secara intuitif jelas bahwa perkiraan akan lebih tidak pasti.
Plot diagnostik pada dataset adalah ...
yang sesuai dengan distribusi "berekor berat" , yang masuk akal adalah kita harus teleskop semua plot Gaussian vertikal "berdampingan" menjadi satu, yang akan mempertahankan bentuk loncengnya, tetapi memiliki ekor yang sangat panjang.
Residu sangat miring dan varians meningkat dengan nilai-nilai variabel penjelas.
Ini akan menjadi plot diagnostik ...
sesuai dengan kemiringan kanan yang ditandai.
Untuk menutup loop, kita akan melihat juga kecondongan dalam model homoskedastik dengan distribusi kesalahan non-Gaussian:
dengan plot diagnostik seperti ...
sumber
Ini bukan kesalahan OP, tapi saya mulai bosan membaca informasi yang salah seperti ini.
"Model regresi berganda" hanyalah label yang menyatakan bahwa satu variabel dapat dinyatakan sebagai fungsi dari variabel lain.
Baik istilah kesalahan sebenarnya maupun residu model tidak perlu apa-apa khususnya - jika residual terlihat normal, ini bagus untuk kesimpulan statistik selanjutnya .
Variabilitas (varians) dari istilah kesalahan tidak perlu hampir konstan - jika tidak, kami memiliki model dengan heteroskedastisitas yang saat ini agak mudah ditangani.
Residual tidak independen dalam hal apapun, karena masing-masing adalah fungsi dari keseluruhan sampel. The istilah kesalahan benar tidak perlu independen -jika mereka tidak kami memiliki model dengan autokorelasi, yang, meskipun lebih sulit daripada heteroskedastisitas, dapat ditangani dengan sampai gelar.
Setiap variabel tidak perlu terkait secara linear dengan hasil. Faktanya, perbedaan antara regresi "linear" dan "non-linear" tidak ada hubungannya dengan hubungan antara variabel - tetapi tentang bagaimana koefisien yang tidak diketahui memasuki hubungan.
Apa yang bisa dikatakan adalah bahwa jika tiga penahan pertama dan keempat dinyatakan dengan benar, maka kita memperoleh "Model Regresi Linier Normal Klasik", yang hanya satu (walaupun secara historis yang pertama) varian dari model regresi berganda.
sumber
Antoni Parellada memiliki jawaban yang sempurna dengan ilustrasi grafis yang bagus.
Saya hanya ingin menambahkan satu komentar untuk merangkum perbedaan antara dua pernyataan
sumber
Tidak ada satu set asumsi regresi yang unik, tetapi ada beberapa variasi di luar sana. Beberapa kumpulan asumsi ini lebih ketat, yaitu lebih sempit, daripada yang lain. Juga, dalam kebanyakan kasus Anda tidak perlu dan, dalam banyak kasus, tidak dapat benar-benar berasumsi bahwa distribusinya normal.
Asumsi yang Anda kutip lebih ketat daripada yang paling banyak, namun mereka dirumuskan dalam bahasa yang tidak perlu longgar. Misalnya, apa sebenarnya yang hampir terjadi ? Juga, itu bukan residual di mana kita memaksakan asumsi, itu kesalahan . Sisa adalah estimasi kesalahan, yang tidak dapat diamati. Ini memberitahu saya bahwa Anda mengutip dari sumber yang buruk. Buang itu.
Jawaban singkat untuk pertanyaan Anda adalah bahwa jika Anda mempertimbangkan distribusi apa pun, misalnya distribusi t Student, untuk kesalahan Anda (saya akan menggunakan istilah yang benar dalam jawaban saya) maka Anda dapat melihat bagaimana kesalahan dapat memiliki variasi "hampir konstan" tanpa dari distribusi Normal, dan bagaimana memiliki varian "hampir konstan" tidak memerlukan distribusi normal. Dengan kata lain, tidak, Anda tidak dapat merancang satu asumsi dari yang lain tanpa persyaratan tambahan.
Jadi, ketika kita menggabungkan semua asumsi menjadi satu atau dua persamaan, sepertinya semuanya tergantung satu sama lain, yang tidak benar. Saya akan menunjukkan ini selanjutnya.
Contoh 1
Contoh 2
sumber
Saya mencoba menambahkan dimensi baru ke dalam diskusi dan membuatnya lebih umum. Maafkan saya jika terlalu sederhana.
Model regresi adalah cara formal untuk mengekspresikan dua unsur penting dari hubungan statistik:
Dengan mendalilkan bahwa:
Sumber: Model Statistik Terapan Linier, KNNL
Datang ke pertanyaan
Asumsi pertama dan kedua yang dinyatakan oleh Anda adalah dua bagian dari asumsi normalitas yang sama dengan nol rata-rata dan varians konstan. Saya pikir pertanyaannya harus diajukan sebagai apa implikasi dari dua asumsi untuk model regresi kesalahan normal daripada perbedaan antara dua asumsi. Saya mengatakan itu karena sepertinya membandingkan apel dengan jeruk karena Anda mencoba untuk menemukan perbedaan antara asumsi atas distribusi sebaran poin dan asumsi atas variabilitasnya. Variabilitas adalah properti dari suatu distribusi. Jadi saya akan mencoba menjawab pertanyaan yang lebih relevan tentang implikasi kedua asumsi tersebut.
Di bawah asumsi normalitas, penduga kemungkinan maksimum (MLEs) adalah sama dengan penduga kuadrat terkecil dan MLE menikmati properti UMVUE yang berarti mereka memiliki varian minimum di antara semua penduga.
sumber