Bagaimana distribusi istilah kesalahan memengaruhi distribusi respons?

14

Jadi ketika saya berasumsi bahwa istilah kesalahan biasanya didistribusikan dalam regresi linier, apa artinya untuk variabel respon, y ?

MarkDollar
sumber

Jawaban:

7

Mungkin saya tidak aktif tetapi saya pikir kita harus bertanya-tanya tentang , yang merupakan cara saya membaca OP. Dalam kasus regresi linier yang paling sederhana jika model Anda adalah y = X β + ϵ maka satu-satunya komponen stokastik dalam model Anda adalah istilah kesalahan. Karena itu menentukan distribusi sampling y . Jika ϵ N ( 0 , σ 2 I ) maka y | X , β N ( X β ,f(y|β,X)y=Xβ+ϵyϵN(0,σ2I) . Apa yang @Aniko katakan tentu benar untuk f ( y ) (sedikit di atas X , β ). Jadi seperti berdiri pertanyaannya agak kabur.y|X,βN(Xβ,σ2I)f(y)X,β

JMS
sumber
Saya suka semua komentar! Dan mereka semua tampaknya benar. Tapi saya hanya mencari jawaban termudah :) Apa yang terjadi ketika Anda berasumsi bahwa istilah errer terdistribusi normal. Bahwa ini terjadi sekarang sangat sering dalam kenyataan menjadi jelas dari jawaban lain! Terima kasih banyak!
MarkDollar
17

Jawaban singkatnya adalah Anda tidak dapat menyimpulkan apa pun tentang distribusi , karena itu tergantung pada distribusi x dan kekuatan serta bentuk hubungan. Lebih formal, y akan memiliki "campuran normals" distribusi, yang dalam prakteknya bisa apa pun cukup banyak.yxy

Berikut adalah dua contoh ekstrem untuk menggambarkan hal ini:

  1. Misalkan hanya ada dua kemungkinan nilai , 0 an 1, dan y = 10 x + N ( 0 , 1 ) . Kemudian y akan memiliki distribusi sangat bimodal dengan benjolan pada 0 dan 10.xy=10x+N(0,1)y
  2. Sekarang asumsikan hubungan yang sama, tetapi biarkan didistribusikan secara seragam pada interval 0-1 dengan banyak nilai. Kemudian y akan hampir merata di interval 0-10 (dengan beberapa ekor setengah normal di tepinya).xy

Bahkan, karena setiap distribusi dapat diperkirakan secara sewenang-wenang dengan campuran normal, Anda benar-benar bisa mendapatkan distribusi apa pun untuk .y

Aniko
sumber
8
+1 Re pernyataan terakhir: Saya pernah membuat kesalahan dengan memikirkan itu juga. Secara matematis Anda benar tetapi dalam praktiknya hampir tidak mungkin untuk memperkirakan lonjakan yang tidak dapat dibedakan dengan normalnya (seperti distribusi berbentuk J atau U): normalnya terlalu datar pada puncaknya untuk menangkap kerapatan pada paku. Anda memerlukan terlalu banyak komponen. Normalnya bagus untuk memperkirakan distribusi yang pdf-nya sangat halus.
whuber
1
@whuber Setuju. Saya tidak akan menyarankan menggunakan pendekatan campuran normal untuk setiap distribusi dalam praktek, saya hanya mencoba memberikan contoh-counter yang ekstrim.
Aniko
5

Kami menemukan istilah kesalahan dengan menerapkan model fiktif pada data nyata; distribusi istilah kesalahan tidak mempengaruhi distribusi respons.

Kami sering berasumsi bahwa kesalahan didistribusikan secara normal dan dengan demikian mencoba untuk membangun model sehingga residu kami yang diperkirakan terdistribusi secara normal. Ini bisa sulit untuk beberapa distribusi . Dalam kasus ini, saya kira Anda bisa mengatakan bahwa distribusi respons memengaruhi istilah kesalahan.y

Thomas Levine
sumber
2
yXβ^Xβ^E(y)=Xβ
Saya setuju dengan ketepatan Anda, JMS. +1 dan saya akan menyesuaikan jawaban saya.
Thomas Levine
2

y=m+e
myeym=eN(0,σ2)σσCauchy(0,γ)

memeyy=m+e=(m+b)+(eb)=m+e. Penentuan distribusi kesalahan dan persamaan model pada dasarnya mengatakan vektor mana yang lebih masuk akal daripada yang lain.

probabilityislogic
sumber
H0:yf0H1:yf1
nyiYxiY=Xβ+ϵϵY|β,X
@ JMS - Saya pikir saya mungkin menghapus paragraf pertama itu. Saya tidak berpikir itu menambah apa pun pada jawaban saya (selain kebingungan).
probabilityislogic
salah satu hal favorit saya untuk ditambahkan ke jawaban saya :)
JMS