Distribusi kesalahan untuk regresi linier dan logistik

9

Dengan data kontinu, regresi linier mengasumsikan bahwa istilah kesalahan didistribusikan N (0, )σ 2Y=β1+β2X2+uσ2

1) Apakah kita berasumsi bahwa Var (Y | x) juga ~ N (0, )?σ2

2) Apa distribusi kesalahan ini dalam regresi logistik? Ketika data dalam bentuk 1 catatan per kasus, di mana "Y" adalah 1 atau 0, adalah istilah kesalahan yang didistribusikan Bernoulli (yaitu varians adalah p (1-p))) dan ketika data dalam bentuk # Berhasil dari uji #of, apakah diasumsikan binomial (yaitu varians adalah np (1-p)), di mana p adalah probabilitas bahwa Y adalah 1?

B_Miner
sumber
2
Anda tidak tepat. Asumsi modelnya adalah bahwa istilah kesalahan independen dan terdistribusi secara identik dengan distribusi yang N (0, σ ) dan tidak terkait dengan COVARIATE. Apa itu Var (Y | x)? Apakah Anda mengkondisikan pada X = x? Apakah model menganggap kovariat itu acak dalam beberapa cara atau lebih kita asumsikan bahwa kovariat itu diperbaiki sesuai dengan matriks desain? Saya pikir itu adalah yang terakhir dan karena itu Var (Y | X = x) tersirat oleh asumsi dan tidak perlu diasumsikan. 2 2222
Michael R. Chernick
@MichaelChernick Mengapa model menganggap bahwa sudah diperbaiki? Ini tentu bisa menjadi kasus yang diperbaiki, tetapi juga bisa secara acak. Tidak ada dalam pertanyaan yang menyiratkan salah satu kepada saya. X2
Peter Flom
@ PeterFlom Saya membaca pertanyaan bahwa regresi linier dengan distribusi kesalahan yang diasumsikan berarti OLS yang memang membutuhkan X untuk diperbaiki dan diketahui. Jika seseorang memiliki Deming regresi (yaitu kesalahan dalam regresi variabel) itu akan ditentukan dalam pertanyaan. Melihat jawaban yang diberikan Stat menunjukkan bahwa dia juga menyelipkan pertanyaan itu. 2
Michael R. Chernick
@Michael, saya mengasumsikan tetap X.
B_Miner

Jawaban:

10

1) Jika memiliki distribusi normal yaitu maka , karena bukan variabel acak.uV a r (N(0,σ2)β 1 + β 2 X 2Var(Y|X2)=Var(β1+β2X2)+Var(u)=0+σ2=σ2β1+β2X2

2) Dalam regresi logistik, diasumsikan bahwa kesalahan mengikuti distribusi binomial seperti yang disebutkan di sini . Lebih baik menuliskannya sebagai , karena probabilitas tersebut bergantung pada , sebagaimana dirujuk di sini atau di Regresi Logistik Terapan .Var(Yj|Xj)=mj.E[Yj|Xj].(1E[Yj|Xj])=mjπ(Xj).(1π(Xj))Xj

Stat
sumber
Stat, Jadi, benar untuk mengatakan bahwa varians untuk kesalahan individu engan, , adalah (1- ) yang setara dengan apa yang telah Anda tunjukkan dengan asumsi bahwa ada lebih dari 1 pengamatan dalam data dengan kovariat yang sama pola (yaitu lain = 1 untuk semua j)? p i p i m jeipipimj
B_Miner
2
Ya ini benar. Jika dengan , maka dengan probabilitas atau dengan probabilitas . Karenanya memiliki distribusi dengan mean dan varians sama dengan . P ( Y i = 1 ) = 1 - P ( Y i = 0 ) = p i e i = 1 - p i p i e i = -Yi=pi+eiP(Yi=1)=1P(Yi=0)=piei=1pipi 1 - p i e i 0 p i ( 1 - p i )ei=pi1piei0pi(1pi)
Stat
Satu poin tambahan di sini, Stat, kita HARUS mengasumsikan bahwa X adalah tetap, tidak acak untuk Var (Y | X) = Var (e) untuk kedua kasus regresi linier dan logistik yang benar?
B_Miner
NB dengan probabilitas atau dengan probabilitas adalah tidak distribusi binomial untuk . p i e i = - p i 1 - p i e iei=1pipiei=pi1piei
Scortchi
B_Miner: berarti varian bersyarat pada variabel acak mengambil nilai yang diamati . Jadi tidak penting apakah prediksi Anda ditetapkan oleh eksperimen atau diamati dalam sampel: apa yang dikatakan @ Stat adalah mereka tidak lagi dianggap sebagai variabel acak untuk keperluan regresi. Y X xVar(Y|X)=Var(Y|X=x)YXx
Scortchi