Asumsi regresi berganda: bagaimana asumsi normalitas berbeda dari asumsi varian konstan?

20

Saya membaca bahwa ini adalah kondisi untuk menggunakan model regresi berganda:

  1. residu model hampir normal,
  2. variabilitas residu hampir konstan
  3. residu bersifat independen, dan
  4. setiap variabel terkait secara linear dengan hasil.

Bagaimana 1 dan 2 berbeda?

Anda dapat melihatnya di sini:

masukkan deskripsi gambar di sini

Jadi grafik di atas mengatakan bahwa residu yang 2 standar deviasi adalah 10 dari Y-hat. Itu berarti bahwa residu mengikuti distribusi normal. Tidak bisakah Anda menyimpulkan 2 dari ini? Bahwa variabilitas residu hampir konstan?

Jwan622
sumber
7
Saya berpendapat bahwa urutannya salah. Dalam urutan kepentingan saya akan mengatakan 4, 3, 2, 1. Dengan cara itu, setiap asumsi tambahan memungkinkan model yang akan digunakan untuk memecahkan serangkaian masalah yang lebih besar, yang bertentangan dengan urutan dalam pertanyaan Anda, di mana asumsi yang paling ketat adalah yang pertama.
Matthew Drury
2
Asumsi ini diperlukan untuk statistik inferensial. Tidak ada asumsi yang dibuat untuk meminimalkan kesalahan kuadrat.
David Lane
1
Saya percaya saya maksud 1, 3, 2, 4. 1 harus dipenuhi setidaknya sekitar untuk model yang akan berguna untuk banyak sekali, 3 diperlukan agar model konsisten, yaitu konvergen ke sesuatu yang stabil saat Anda mendapatkan lebih banyak data , 2 diperlukan agar estimasi menjadi efisien, yaitu tidak ada cara lain yang lebih baik untuk menggunakan data untuk memperkirakan garis yang sama, dan 4 diperlukan, setidaknya kira-kira, untuk menjalankan tes hipotesis pada parameter yang diestimasi.
Matthew Drury
3
Tautan wajib ke blog-posting A. Gelman tentang Apa asumsi utama dari regresi linier? .
usεr11852 mengatakan Reinstate Monic
2
Tolong beri sumber untuk diagram Anda jika itu bukan karya Anda sendiri.
Nick Cox

Jawaban:

44

1. Distribusi residu yang normal :

Kondisi normal berperan ketika Anda mencoba untuk mendapatkan interval kepercayaan dan / atau nilai-p.

ε|XN(0,σ2sayan) bukan kondisi Gauss Markov .


masukkan deskripsi gambar di sini

Plot ini mencoba menggambarkan distribusi titik-titik dalam populasi dengan warna biru (dengan garis regresi populasi sebagai garis cyan padat), ditumpangkan pada dataset sampel dalam titik-titik kuning besar (dengan perkiraan garis regresi diplot pada garis kuning putus-putus). Jelas ini hanya untuk konsumsi konseptual, karena akan ada titik tak terbatas untuk setiap nilai ) - sehingga ini adalah diskritisasi ikonografi grafis dari konsep regresi sebagai distribusi kontinu dari nilai-nilai di sekitar rata-rata (sesuai dengan nilai prediksi variabel "independen") pada setiap nilai yang diberikan dari regresi, atau variabel penjelas.X=x

Jika kami menjalankan plot R diagnostik pada data "populasi" yang disimulasikan, kami akan ...

masukkan deskripsi gambar di sini

Varian dari residual adalah konstan sepanjang semua nilaiX.

Alur ceritanya adalah:

masukkan deskripsi gambar di sini


Secara konseptual, memperkenalkan banyak regresi atau variabel penjelas tidak mengubah ide. Saya menemukan tutorial langsung dari paket ini swirl()sangat membantu dalam memahami bagaimana regresi berganda benar-benar suatu proses regresi variabel dependen terhadap satu sama lain dengan meneruskan variasi residual, yang tidak dapat dijelaskan dalam model; atau lebih sederhana, bentuk vektor dari regresi linier sederhana :

Teknik umum adalah memilih satu regresi dan mengganti semua variabel lainnya dengan residu regresi mereka terhadap yang satu itu.


2. Variabilitas residu hampir konstan (Homoskedasticity) :

E[εsaya2|X]=σ2

The masalah dengan melanggar kondisi ini adalah:

Heteroskedastisitas memiliki konsekuensi serius bagi penaksir OLS. Meskipun estimator OLS tetap tidak memihak, estimasi SE salah. Karena itu, interval kepercayaan dan tes hipotesis tidak dapat diandalkan. Selain itu, penaksir OLS tidak lagi BIRU.


masukkan deskripsi gambar di sini

Dalam plot ini varians meningkat dengan nilai-nilai regressor (variabel penjelas), sebagai lawan tetap konstan. Dalam hal ini residu terdistribusi normal, tetapi varian dari distribusi normal ini berubah (meningkat) dengan variabel penjelas.

Perhatikan bahwa garis regresi "benar" (populasi) tidak berubah sehubungan dengan garis regresi populasi di bawah homoskedastisitas dalam plot pertama (biru tua pekat), tetapi secara intuitif jelas bahwa perkiraan akan lebih tidak pasti.

Plot diagnostik pada dataset adalah ...

masukkan deskripsi gambar di sini

yang sesuai dengan distribusi "berekor berat" , yang masuk akal adalah kita harus teleskop semua plot Gaussian vertikal "berdampingan" menjadi satu, yang akan mempertahankan bentuk loncengnya, tetapi memiliki ekor yang sangat panjang.


@Glen_b "... cakupan lengkap dari perbedaan antara keduanya juga akan mempertimbangkan homoskedastik-tapi-tidak-normal."

masukkan deskripsi gambar di sini

Residu sangat miring dan varians meningkat dengan nilai-nilai variabel penjelas.

Ini akan menjadi plot diagnostik ...

masukkan deskripsi gambar di sini

sesuai dengan kemiringan kanan yang ditandai.

Untuk menutup loop, kita akan melihat juga kecondongan dalam model homoskedastik dengan distribusi kesalahan non-Gaussian:

masukkan deskripsi gambar di sini

dengan plot diagnostik seperti ...

masukkan deskripsi gambar di sini

Antoni Parellada
sumber
2
Terima kasih banyak. Saya merasa perlu untuk menjembatani diskritisasi kotor dari populasi yang digunakan sebagai alat visualisasi. Saya dapat memposting kode, tetapi saya ragu karena ada beberapa tingkat matematika kreatif :-)
Antoni Parellada
3
Ilustrasi perbedaan antara kesalahan normal dan kesalahan homoseksual dengan menunjukkan plot yang memuaskan keduanya dan kemudian menunjukkan normal-tetapi-bukan-homoskedastik sangat baik. Saya kira cakupan lengkap dari perbedaan antara keduanya juga akan mempertimbangkan homoskedastik-tetapi-tidak-normal. [Saya tidak menyarankan Anda menambahkan ilustrasi seperti itu, tetapi itu adalah lengan ketiga yang berguna untuk
diingat
7

Ini bukan kesalahan OP, tapi saya mulai bosan membaca informasi yang salah seperti ini.

Saya membaca bahwa ini adalah kondisi untuk menggunakan model regresi berganda:

the residuals of the model are nearly normal,
the variability of the residuals is nearly constant
the residuals are independent, and
each variable is linearly related to the outcome.

"Model regresi berganda" hanyalah label yang menyatakan bahwa satu variabel dapat dinyatakan sebagai fungsi dari variabel lain.

Baik istilah kesalahan sebenarnya maupun residu model tidak perlu apa-apa khususnya - jika residual terlihat normal, ini bagus untuk kesimpulan statistik selanjutnya .

Variabilitas (varians) dari istilah kesalahan tidak perlu hampir konstan - jika tidak, kami memiliki model dengan heteroskedastisitas yang saat ini agak mudah ditangani.

Residual tidak independen dalam hal apapun, karena masing-masing adalah fungsi dari keseluruhan sampel. The istilah kesalahan benar tidak perlu independen -jika mereka tidak kami memiliki model dengan autokorelasi, yang, meskipun lebih sulit daripada heteroskedastisitas, dapat ditangani dengan sampai gelar.

Setiap variabel tidak perlu terkait secara linear dengan hasil. Faktanya, perbedaan antara regresi "linear" dan "non-linear" tidak ada hubungannya dengan hubungan antara variabel - tetapi tentang bagaimana koefisien yang tidak diketahui memasuki hubungan.

Apa yang bisa dikatakan adalah bahwa jika tiga penahan pertama dan keempat dinyatakan dengan benar, maka kita memperoleh "Model Regresi Linier Normal Klasik", yang hanya satu (walaupun secara historis yang pertama) varian dari model regresi berganda.

Alecos Papadopoulos
sumber
3
XβXβX
2
Dan pertanyaannya hilang asumsi mendasar yang mutlak bahwa harapan bersyarat dari ketentuan kesalahan adalah nol!
Matthew Gunn
1
@MatthewGunn Baiklah, ... ini membuka diskusi yang sangat besar tentang apa yang kita lakukan dengan model ini: jika kita mengambil pandangan "deterministik / rekayasa", kita perlu asumsi ini untuk memastikan bahwa spesifisitas memang merupakan deterministik uderlying. Jika kita ingin memperkirakan fungsi ekspektasi bersyarat sehubungan dengan regresi spesifik , maka codnition secara otomatis terpenuhi (atau setidaknya bentuk yang lebih lemah, ortogonalitas).
Alecos Papadopoulos
1
@AlecosPapadopoulos Ya, dalam arti, kuadrat biasa selalu memberi Anda perkiraan sesuatu! Tapi itu mungkin bukan sesuatu yang Anda inginkan. Jika OP hanya menginginkan fungsi ekspektasi linier dan kondisional berkenaan dengan regressor spesifik, saya setuju kondisi diasumsikan secara otomatis. Tetapi jika OP mencoba memperkirakan beberapa parameter, membenarkan kondisi orthogonality sangat penting!
Matthew Gunn
@ MatthewGunn Memang, ini memang benar.
Alecos Papadopoulos
3

Antoni Parellada memiliki jawaban yang sempurna dengan ilustrasi grafis yang bagus.

Saya hanya ingin menambahkan satu komentar untuk merangkum perbedaan antara dua pernyataan

  1. residu model hampir normal

  2. variabilitas residu hampir konstan

  • Pernyataan 1 memberi "bentuk" residual adalah "kurva berbentuk lonceng" .
  • Pernyataan 2 memurnikan yang menyebar dari "bentuk" (konstan), di Antoni Parellada ini rencana 3. ada 3 kurva berbentuk lonceng, tetapi mereka menyebar berbeda.
Haitao Du
sumber
1

Tidak ada satu set asumsi regresi yang unik, tetapi ada beberapa variasi di luar sana. Beberapa kumpulan asumsi ini lebih ketat, yaitu lebih sempit, daripada yang lain. Juga, dalam kebanyakan kasus Anda tidak perlu dan, dalam banyak kasus, tidak dapat benar-benar berasumsi bahwa distribusinya normal.

Asumsi yang Anda kutip lebih ketat daripada yang paling banyak, namun mereka dirumuskan dalam bahasa yang tidak perlu longgar. Misalnya, apa sebenarnya yang hampir terjadi ? Juga, itu bukan residual di mana kita memaksakan asumsi, itu kesalahan . Sisa adalah estimasi kesalahan, yang tidak dapat diamati. Ini memberitahu saya bahwa Anda mengutip dari sumber yang buruk. Buang itu.

Jawaban singkat untuk pertanyaan Anda adalah bahwa jika Anda mempertimbangkan distribusi apa pun, misalnya distribusi t Student, untuk kesalahan Anda (saya akan menggunakan istilah yang benar dalam jawaban saya) maka Anda dapat melihat bagaimana kesalahan dapat memiliki variasi "hampir konstan" tanpa dari distribusi Normal, dan bagaimana memiliki varian "hampir konstan" tidak memerlukan distribusi normal. Dengan kata lain, tidak, Anda tidak dapat merancang satu asumsi dari yang lain tanpa persyaratan tambahan.

ysaya=Xsayaβ+εsayaεsayaN(0,σ2)
  1. N(.)
  2. σεsaya
  3. NX
  4. y=Xβ

Jadi, ketika kita menggabungkan semua asumsi menjadi satu atau dua persamaan, sepertinya semuanya tergantung satu sama lain, yang tidak benar. Saya akan menunjukkan ini selanjutnya.

Contoh 1

ysaya=Xsayaβ+εsayaεsayatν
ν

Contoh 2

ysaya=Xsayaβ+εsayaεsayaN(0,σ2saya)
saya
Aksakal
sumber
1

Saya mencoba menambahkan dimensi baru ke dalam diskusi dan membuatnya lebih umum. Maafkan saya jika terlalu sederhana.

Model regresi adalah cara formal untuk mengekspresikan dua unsur penting dari hubungan statistik:

  1. YX
  2. Sebuah hamburan dari titik sekitar kurva hubungan statistik.

Y

Dengan mendalilkan bahwa:

  1. YX

  2. X

Y

YX

YXYX

Sumber: Model Statistik Terapan Linier, KNNL

YX

Ysaya=β0 +β1Xsaya+ϵ

YsayaXsaya

β0β1 adalah parameter

ϵN(HAI,σ2)

saya

E(Y|X)β0β1σ2β0β1σ2

the residuals of the model are nearly normal,
the variability of the residuals is nearly constant
the residuals are independent, and
each variable is linearly related to the outcome.

Bagaimana 1 dan 2 berbeda?

Datang ke pertanyaan

Asumsi pertama dan kedua yang dinyatakan oleh Anda adalah dua bagian dari asumsi normalitas yang sama dengan nol rata-rata dan varians konstan. Saya pikir pertanyaannya harus diajukan sebagai apa implikasi dari dua asumsi untuk model regresi kesalahan normal daripada perbedaan antara dua asumsi. Saya mengatakan itu karena sepertinya membandingkan apel dengan jeruk karena Anda mencoba untuk menemukan perbedaan antara asumsi atas distribusi sebaran poin dan asumsi atas variabilitasnya. Variabilitas adalah properti dari suatu distribusi. Jadi saya akan mencoba menjawab pertanyaan yang lebih relevan tentang implikasi kedua asumsi tersebut.

Di bawah asumsi normalitas, penduga kemungkinan maksimum (MLEs) adalah sama dengan penduga kuadrat terkecil dan MLE menikmati properti UMVUE yang berarti mereka memiliki varian minimum di antara semua penduga.

β0β1t

naif
sumber
1
Ini adalah akun regresi yang sangat baik. Tetapi bagaimana cara menjawab pertanyaan khusus di utas ini?
Whuber