Mengapa perlu menempatkan asumsi distribusi pada kesalahan, yaitu
ϵ i ∼ N ( 0 , σ 2 ) , dengan .
Kenapa tidak menulis
y i ~ N ( X β , σ 2 ) , dengan ,
di mana dalam kedua kasus . Saya telah melihatnya menekankan bahwa asumsi distribusi ditempatkan pada kesalahan, bukan data, tetapi tanpa penjelasan.
Saya tidak begitu mengerti perbedaan antara kedua formulasi ini. Beberapa tempat saya melihat asumsi distribusi ditempatkan pada data (Bayesian menyala sepertinya sebagian besar), tetapi kebanyakan kali asumsi ditempatkan pada kesalahan.
Ketika menjadi model, mengapa seseorang harus memilih untuk memulai dengan asumsi satu atau yang lain?
Jawaban:
Dalam pengaturan regresi linier, adalah umum untuk melakukan analisis dan memperoleh hasil yang bersyarat pada , yaitu bersyarat pada "data". Jadi, apa yang Anda butuhkan adalah bahwa Anda adalah normal, yaitu, Anda perlu menjadi normal. Seperti yang diilustrasikan oleh Peter Flom, seseorang dapat memiliki normalitas tanpa memiliki normalitas , dan, oleh karena itu, yang Anda butuhkan adalah normalitas , itulah asumsi yang masuk akal.y ∣ X ϵ ϵ y ϵX y∣X ϵ ϵ y ϵ
sumber
Saya akan menulis definisi kedua sebagai
atau (seperti yang disarankan Karl Oskar +1)
yaitu asumsi pemodelan adalah bahwa variabel respon terdistribusi secara normal di sekitar garis regresi (yang merupakan estimasi dari conditional mean), dengan varians konstan . Ini bukan hal yang sama dengan menyarankan bahwa secara normal, karena rata-rata distribusi tergantung pada .y i X iσ2 yi Xi
Saya pikir saya telah melihat formulasi serupa dengan ini dalam literatur pembelajaran mesin; sejauh yang saya lihat itu setara dengan definisi pertama, yang saya lakukan adalah mengulangi formulasi kedua sedikit berbeda untuk menghilangkan dan .yϵi y^
sumber
Perbedaannya paling mudah untuk diilustrasikan dengan sebuah contoh. Ini yang sederhana:
Misalkan Y adalah bimodal, dengan modalitas dicatat oleh variabel independen. Misalkan Y adalah tinggi dan sampel Anda (untuk alasan apa pun) terdiri dari joki dan pemain bola basket. misalnya di
R
kepadatan pertama sangat tidak normal. Tetapi residu dari model sangat dekat dengan normal.
Mengenai mengapa pembatasan dilakukan dengan cara ini - saya akan membiarkan orang lain menjawabnya.
sumber
Yang telah dicatat, apa yang dimaksud dengan ? Ini adalah . Ini mengarah pada formulasi @DikranMarsupial menyajikan: Perlu diketahui bahwa ini persis sama dengan yang pertama Anda formulasi, karena keduanya menetapkan distribusi normal dan nilai yang diharapkan sama. Yaitu: (Dan jelas variansnya sama.) Dengan kata lain, iniy^i xiβ^
Jadi pertanyaannya menjadi, adakah alasan untuk lebih suka mempresentasikan ide menggunakan formulasi pertama?
Saya pikir jawabannya adalah ya karena dua alasan:
Saya percaya bahwa kebingungan ini lebih mungkin menggunakan formulasi kedua daripada yang pertama.
sumber