Bias variabel yang dihilangkan dalam regresi logistik vs bias variabel yang dihilangkan dalam regresi kuadrat terkecil biasa

17

Saya punya pertanyaan tentang bias variabel yang dihilangkan dalam regresi logistik dan linier.

Katakanlah saya menghilangkan beberapa variabel dari model regresi linier. Berpura-pura bahwa variabel-variabel yang dihilangkan tersebut tidak berkorelasi dengan variabel yang saya sertakan dalam model saya. Variabel-variabel yang dihilangkan tidak bias koefisien dalam model saya.

Tetapi dalam regresi logistik, saya baru tahu bahwa ini tidak benar. Variabel yang dihilangkan akan bias koefisien pada variabel yang disertakan bahkan jika variabel yang dihilangkan tidak berkorelasi dengan variabel yang disertakan. Saya menemukan makalah tentang topik ini, tetapi saya tidak bisa membuat kepala atau ekornya.

Inilah kertas dan beberapa slide powerpoint.

Biasnya, tampaknya, selalu menuju nol. Adakah yang bisa menjelaskan cara kerjanya?

ConfusedEconometricsUndergrad
sumber
Apakah Anda terbiasa dengan bagaimana model regresi logistik muncul dari model regresi linier "laten-variabel" yang mendasarinya?
Alecos Papadopoulos
@AlecosPapadopoulos I for one am not. Apa hidangannya?
Alexis
Ada artikel lain yang membahas hal ini, tetapi yang Anda tautkan adalah yang termudah yang saya tahu. Jadi saya tidak berpikir saya bisa memperbaikinya.
Maarten Buis
Bapak Papadopoulos yang terhormat: Saya sudah membaca tentang ide variabel-laten. Kenapa kamu bertanya?
ConfusedEconometricsUndergrad
@ Alexis Lihat misalnya posting ini, stats.stackexchange.com/questions/80611/… , dan artikel wikipedia, en.wikipedia.org/wiki/… . Pendekatan ini juga mengklarifikasi bahwa asumsi yang kita buat pada istilah kesalahan dari model yang mendasari yang menentukan model apa yang akan kita peroleh pada tingkat Probabilitas. Untuk contoh lain, jika kita mengasumsikan bahwa kesalahan yang mendasari mengikuti seragam, kita memperoleh Model Probabilitas Linier, lihat, stats.stackexchange.com/questions/81789
Alecos Papadopoulos

Jawaban:

20

Kasus "bias redaman" dapat lebih jelas disajikan jika kita memeriksa model "probit" - tetapi hasilnya terbawa ke regresi logistik juga.

Di bawah model Probabilitas Bersyarat (Logistik (logit), "probit", dan "Probabilitas Linear") kita dapat mendalilkan model regresi linier laten (tidak dapat diamati):

y=Xβ+u

di mana adalah variabel yang tidak dapat diobservasi secara terus-menerus (dan X adalah matriks regresi). Istilah kesalahan diasumsikan independen dari regressor, dan mengikuti distribusi yang memiliki simetris kerapatan sekitar nol , dan dalam kasus kami, distribusi normal standar F U ( u ) = Φ ( u ) .yXFU(u)=Φ(u)

Kami berasumsi bahwa apa yang kami amati, yaitu variabel biner , adalah fungsi Indikator dari y ∗ yang tidak dapat diobservasi :yy

y=1ify>0,y=0ify0

Kemudian kita bertanya "apa adalah probabilitas bahwa akan mengambil nilai 1 diberikan regressors?" (Yaitu kita melihat probabilitas bersyarat). Ini adalahy1

P(y=1X)=P(y>0X)=P(Xβ+u>0X)=P(u>XβX)=1Φ(Χβ)=Φ(Xβ)

kesetaraan terakhir karena properti "reflektif" dari fungsi distribusi kumulatif standar, yang berasal dari simetri fungsi densitas sekitar nol. Perhatikan bahwa meskipun kita mengasumsikan bahwa tidak bergantung pada X , pengkondisian pada X diperlukan untuk memperlakukan kuantitas X β sebagai non-acak.uXXXβ

Jika kita mengasumsikan bahwa , maka kita memperoleh model teoretisXβ=b0+b1X1+b2X2

(1)P(y=1X)=Φ(b0+b1X1+b2X2)

Mari be independen X 1 dan keliru dikeluarkan dari spesifikasi regresi yang mendasari. Jadi kami tentukanX2X1

Asumsikan lebih lanjut bahwa X 2 juga merupakan variabel acak normal X 2

y=b0+b1X1+ϵ
X2 . Tapi ini artinyaX2N(μ2,σ22)

ϵ=u+b2X2N(b2μ2,1+b22σ22)

karena penutupan-penambahan-tambahan dari distribusi normal (dan asumsi independensi). Menerapkan logika yang sama seperti sebelumnya, di sini kita miliki

P(y=1X1)=P(y>0X1)=P(b0+b1X1+ϵ>0X1)=P(ϵ>b0b1X1X1)

Standardisasi variabel yang kita milikiϵ

P(y=1X1)=1P(ϵb2μ21+b22σ22(b0+b2μ2)1+b22σ22b11+b22σ22X1X1)

(2)P(y=1X1)=Φ((b0+b2μ2)1+b22σ22+b11+b22σ22X1)

(1)(2).

The above theoretical expression, tells us where our maximum likelihood estimator of b1 is going to converge, since it remains a consistent estimator, in the sense that it will converge to the theoretical quantity that really exists in the model (and of course, not in the sense that it will find the "truth" in any case):

b^1pb11+b22σ22|b^1|<|b1|

which is the "bias towards zero" result.

We used the probit model, and not the logit (logistic regression), because only under normality can we derive the distribution of ϵ. The logistic distribution is not closed under addition. This means that if we omit a relevant variable in logistic regression, we also create distributional misspecification, because the error term (that now includes the omitted variable) no longer follows a logistic distribution. But this does not change the bias result (see footnote 6 in the paper linked to by the OP).

Alecos Papadopoulos
sumber