Saya punya pertanyaan tentang bias variabel yang dihilangkan dalam regresi logistik dan linier.
Katakanlah saya menghilangkan beberapa variabel dari model regresi linier. Berpura-pura bahwa variabel-variabel yang dihilangkan tersebut tidak berkorelasi dengan variabel yang saya sertakan dalam model saya. Variabel-variabel yang dihilangkan tidak bias koefisien dalam model saya.
Tetapi dalam regresi logistik, saya baru tahu bahwa ini tidak benar. Variabel yang dihilangkan akan bias koefisien pada variabel yang disertakan bahkan jika variabel yang dihilangkan tidak berkorelasi dengan variabel yang disertakan. Saya menemukan makalah tentang topik ini, tetapi saya tidak bisa membuat kepala atau ekornya.
Inilah kertas dan beberapa slide powerpoint.
Biasnya, tampaknya, selalu menuju nol. Adakah yang bisa menjelaskan cara kerjanya?
sumber
Jawaban:
Kasus "bias redaman" dapat lebih jelas disajikan jika kita memeriksa model "probit" - tetapi hasilnya terbawa ke regresi logistik juga.
Di bawah model Probabilitas Bersyarat (Logistik (logit), "probit", dan "Probabilitas Linear") kita dapat mendalilkan model regresi linier laten (tidak dapat diamati):
di mana adalah variabel yang tidak dapat diobservasi secara terus-menerus (dan X adalah matriks regresi). Istilah kesalahan diasumsikan independen dari regressor, dan mengikuti distribusi yang memiliki simetris kerapatan sekitar nol , dan dalam kasus kami, distribusi normal standar F U ( u ) = Φ ( u ) .y∗ X FU(u)=Φ(u)
Kami berasumsi bahwa apa yang kami amati, yaitu variabel biner , adalah fungsi Indikator dari y ∗ yang tidak dapat diobservasi :y y∗
Kemudian kita bertanya "apa adalah probabilitas bahwa akan mengambil nilai 1 diberikan regressors?" (Yaitu kita melihat probabilitas bersyarat). Ini adalahy 1
kesetaraan terakhir karena properti "reflektif" dari fungsi distribusi kumulatif standar, yang berasal dari simetri fungsi densitas sekitar nol. Perhatikan bahwa meskipun kita mengasumsikan bahwa tidak bergantung pada X , pengkondisian pada X diperlukan untuk memperlakukan kuantitas X β sebagai non-acak.u X X Xβ
Jika kita mengasumsikan bahwa , maka kita memperoleh model teoretisXβ=b0+b1X1+b2X2
Mari be independen X 1 dan keliru dikeluarkan dari spesifikasi regresi yang mendasari. Jadi kami tentukanX2 X1
Asumsikan lebih lanjut bahwa X 2 juga merupakan variabel acak normal X 2
karena penutupan-penambahan-tambahan dari distribusi normal (dan asumsi independensi). Menerapkan logika yang sama seperti sebelumnya, di sini kita miliki
Standardisasi variabel yang kita milikiϵ
The above theoretical expression, tells us where our maximum likelihood estimator ofb1 is going to converge, since it remains a consistent estimator, in the sense that it will converge to the theoretical quantity that really exists in the model (and of course, not in the sense that it will find the "truth" in any case):
which is the "bias towards zero" result.
We used the probit model, and not the logit (logistic regression), because only under normality can we derive the distribution ofϵ . The logistic distribution is not closed under addition. This means that if we omit a relevant variable in logistic regression, we also create distributional misspecification, because the error term (that now includes the omitted variable) no longer follows a logistic distribution. But this does not change the bias result (see footnote 6 in the paper linked to by the OP).
sumber