Dengan regresi OLS diterapkan pada respon kontinu, seseorang dapat membangun persamaan regresi berganda dengan menjalankan regresi residual secara berurutan pada setiap kovariat. Pertanyaan saya adalah, adakah cara untuk melakukan ini dengan regresi logistik melalui residu regresi logistik ?
regression
logistic
residuals
Ben Ogorek
sumber
sumber
Jawaban:
Dalam regresi linier berganda standar, kemampuan untuk menyesuaikan estimasi ordinary-least-square (OLS) dalam dua langkah berasal dari teorema Frisch-Waugh-Lovell . Teorema ini menunjukkan bahwa estimasi koefisien untuk prediktor tertentu dalam model linier berganda sama dengan estimasi yang diperoleh dengan regresi residual respons (residu dari regresi variabel respons terhadap variabel penjelas lainnya ) terhadap residual prediktor (residual) dari regresi variabel prediktor terhadap variabel penjelas lainnya ). Jelas, Anda mencari analogi dengan teorema ini yang dapat digunakan dalam model regresi logistik.
Untuk pertanyaan ini, akan sangat membantu untuk mengingat karakterisasi laten-variabel dari regresi logistik :
Dalam karakterisasi model ini, variabel respons laten tidak dapat diobservasi, dan sebaliknya kami mengamati indikator yang memberi tahu kami apakah respons laten positif atau tidak. Bentuk model ini terlihat mirip dengan regresi linier berganda, kecuali bahwa kami menggunakan distribusi kesalahan yang sedikit berbeda (distribusi logistik dan bukan distribusi normal), dan yang lebih penting, kami hanya mengamati indikator yang menunjukkan apakah tanggapan laten positif atau tidak. .Y∗i Yi
Ini menciptakan masalah untuk setiap upaya untuk membuat kecocokan dua langkah dari model. Teorema Frisch-Waugh-Lovell ini bertumpu pada kemampuan untuk mendapatkan residu menengah untuk respons dan prediktor minat, diambil terhadap variabel penjelas lainnya. Dalam kasus ini, kami hanya dapat memperoleh residu dari variabel respons "yang dikategorikan". Membuat proses pemasangan dua langkah untuk regresi logistik akan mengharuskan Anda untuk menggunakan residu respons dari variabel respons yang dikategorikan ini, tanpa akses ke respons laten yang mendasarinya. Bagi saya, ini seperti rintangan besar, dan meskipun tidak membuktikan ketidakmungkinan, tampaknya tidak mungkin untuk mencocokkan model dalam dua langkah.
Di bawah ini saya akan memberi Anda akun tentang apa yang diperlukan untuk menemukan proses dua langkah agar sesuai dengan regresi logistik. Saya tidak yakin apakah ada solusi untuk masalah ini, atau jika ada bukti ketidakmungkinan, tetapi materi di sini harus memberi Anda cara untuk memahami apa yang diperlukan.
Seperti apa bentuk regresi logistik dua langkah? Misalkan kita ingin membangun kecocokan dua langkah untuk model regresi logistik di mana parameter diestimasi melalui estimasi kemungkinan-maksimum pada setiap langkah. Kami ingin proses melibatkan langkah menengah yang sesuai dengan dua model berikut:
Kami memperkirakan koefisien model-model ini (melalui MLEs) dan ini menghasilkan nilai-nilai terpasang menengah . Kemudian pada langkah kedua kita cocok dengan model:α^0,α^X,γ^0,γ^X
Seperti yang ditentukan, prosedur memiliki banyak elemen tetap, tetapi fungsi kerapatan dan dalam langkah-langkah ini tidak ditentukan (meskipun mereka harus distribusi rata-rata nol yang tidak bergantung pada data). Untuk mendapatkan metode pemasangan dua langkah di bawah kendala ini, kita harus memilih dan untuk memastikan bahwa MLE untuk dalam algoritma model-fit dua langkah ini sama dengan MLE yang diperoleh dari model regresi logistik satu langkah atas.g f g f βZ
Untuk melihat apakah ini mungkin, pertama-tama kami menulis semua parameter yang diestimasi dari langkah pertama:
Biarkan sehingga fungsi log-likelihood untuk langkah kedua adalah:ϵi=yi−logistic(α^0−α^1xi)+βZ(zi−γ^0−γ^Xxi)
Kami mensyaratkan bahwa nilai maksimal dari fungsi ini adalah MLE dari model regresi logistik berganda. Dengan kata lain, kami membutuhkan:
Saya serahkan kepada orang lain untuk menentukan apakah ada solusi untuk masalah ini, atau bukti tidak ada solusi. Saya menduga bahwa "kategorisasi" dari variabel respon laten dalam regresi logistik akan membuat tidak mungkin untuk menemukan proses dua langkah.
sumber
Saya mungkin salah mengartikan pertanyaan itu. Saya ragu Anda dapat membangun persamaan regresi linier dengan regresi residu dengan cara yang ditentukan OP . Metode OP hanya akan berfungsi jika prediktornya independen satu sama lain.
Untuk membuatnya bekerja, anggap adalah vektor hasil, adalah matriks model untuk prediktor yang sudah ada dalam model dan Anda ingin memasukkan . Anda perlu mengembalikan residu dari regresi pada terhadap residu regresi pada untuk mendapatkan koefisien OLS untuk .y X x1 y X x1 X x1
Berikut ini contoh sederhana:
Fit model dengan OLS:
Regresi pada residu:
Ini salah, Anda harus menyesuaikan:
Yang mengembalikan koefisien yang tepat untuk x2, ini selaras dengan perbedaan yang diharapkan dalam y diberikan perbedaan dalam x2, memegang x1 konstan (mengeluarkannya dari y dan x1).
Selain itu, dalam regresi logistik, itu bahkan akan lebih bermasalah karena koefisien regresi logistik menderita bias variabel yang dihilangkan bahkan tanpa adanya hubungan yang membingungkan, lihat di sini dan di sini , jadi kecuali semua prediktor hasil dalam model, kita tidak dapat memperoleh perkiraan yang tidak bias dari parameter populasi sebenarnya. Selain itu, saya tidak tahu adanya residu dari model yang akan menerima regresi logistik kedua dengan semua nilai berada di antara 0 dan 1.
Beberapa referensi tentang regresi residu:
sumber
Saya harap saya tidak salah menafsirkan pertanyaan Anda, karena jawaban saya akan sedikit mengubah kata-kata tentang bagaimana Anda mengutarakan subjek Anda.
Saya pikir apa yang Anda coba lakukan adalah membangun model regresi Anda dengan menambahkan satu variabel independen pada suatu waktu. Dan, Anda melakukannya dengan mengamati variabel prospektif mana yang memiliki korelasi tertinggi dengan sisa regresi pertama Anda antara Y dan X1. Jadi, variabel dengan korelasi tertinggi dengan residual pertama ini adalah X2. Jadi, sekarang Anda memiliki model dengan dua variabel independen X1 & X2. Dan, Anda melanjutkan proses yang tepat ini untuk memilih X3, X4, dll. Ini adalah proses maju bertahap.
Anda dapat melakukan hal yang sama persis dengan Regresi Logistik untuk alasan sederhana bahwa Regresi Logistik cukup banyak Regresi OLS di mana variabel dependen adalah log dari ganjil (atau logit). Tapi, apakah Y adalah logit atau tidak tidak mempengaruhi proses stepwise forward yang disebutkan di atas.
OLS meminimalkan jumlah kesalahan kuadrat agar sesuai dengan data aktual. Regresi logit menggunakan proses kemungkinan maksimum yang menghasilkan kecocokan yang tidak jauh berbeda dari OLS. Dan, itu juga (mekanisme pemasangan) seharusnya tidak memengaruhi proses maju bertahap yang memungkinkan Anda membangun model regresi berganda, apakah yang terakhir adalah Regresi OLS atau Regresi Logit.
sumber