Regresi Residu Regresi Logistik pada Regresor lainnya

Dengan regresi OLS diterapkan pada respon kontinu, seseorang dapat membangun persamaan regresi berganda dengan menjalankan regresi residual secara berurutan pada setiap kovariat. Pertanyaan saya adalah, adakah cara untuk melakukan ini dengan regresi logistik melalui residu regresi logistik ?

$\Pr(Y = 1 | x, z)$ $x$ $R_1$ $R_1$ $z$

regression logistic residuals Ben Ogorek
sumber

Dugaan saya adalah bahwa ini tidak akan berfungsi karena alasan yang sama bahwa REML tidak meluas ke GLM; keajaiban kotak terkecil hilang. Saya ingin tahu apakah itu akan bekerja dalam konteks bayesian sepenuhnya di mana Anda mencicipi variabel laten sebagai bagian dari sim. Alasan saya ingin melakukan ini adalah agar saya dapat menjalankan glmnet pada kelas variabel yang berbeda dan mendapatkan jumlah regularisasi yang berbeda untuk kelas - tentu saja ada cara lain untuk mendapatkan efek ini.

Ben Ogorek

Apakah ini sangat mirip dengan menggunakan algoritma back-fitting untuk regresi logistik?

usεr11852

Saya menyebutkan hal ini dalam komentar di bawah ini, tetapi dalam banyak implementasi Anda dapat melewati prediksi 'basis' (parameter offset di glmnet), jadi mungkin ini akan mungkin setelah kemunduran vars dependen. @BenOgorek Anda ingin menambahkan tujuan di teks utama

seanv507

@ seanv507 Saya khawatir bahwa menambahkan di bagian regularisasi akan meningkatkan cakupan terlalu banyak, terutama sekarang ada beberapa jawaban yang baik di bawah ini. Setelah T&J ini selesai, saya akan membuat pertanyaan terpisah di mana offset mungkin memang teman kita.

Ben Ogorek

Ini bukan jawaban tetapi saya tidak memiliki reputasi yang cukup untuk berkomentar. Pertanyaannya adalah tentang mengembalikan residu pada regressor lain (yaitu, prediktor ) daripada meregreskan residual pada residual . Saya bingung dengan jawabannya.

T Wu

Jawaban:

Dalam regresi linier berganda standar, kemampuan untuk menyesuaikan estimasi ordinary-least-square (OLS) dalam dua langkah berasal dari teorema Frisch-Waugh-Lovell . Teorema ini menunjukkan bahwa estimasi koefisien untuk prediktor tertentu dalam model linier berganda sama dengan estimasi yang diperoleh dengan regresi residual respons (residu dari regresi variabel respons terhadap variabel penjelas lainnya ) terhadap residual prediktor (residual) dari regresi variabel prediktor terhadap variabel penjelas lainnya ). Jelas, Anda mencari analogi dengan teorema ini yang dapat digunakan dalam model regresi logistik.

Untuk pertanyaan ini, akan sangat membantu untuk mengingat karakterisasi laten-variabel dari regresi logistik :

Y_{i} = I (Y_{i}^{*} > 0) Y_{i}^{*} = β_{0} + β_{X} x_{i} + β_{Z} z_{i} + ε_{i} ε_{i} \sim IID Logistic (0, 1) .

$Y_i = \mathbb{I}(Y_i^* > 0) \quad \quad \quad Y_i^* = \beta_0 + \beta_X x_i + \beta_Z z_i + \varepsilon_i \quad \quad \quad \varepsilon_i \sim \text{IID Logistic}(0,1).$

Dalam karakterisasi model ini, variabel respons laten tidak dapat diobservasi, dan sebaliknya kami mengamati indikator yang memberi tahu kami apakah respons laten positif atau tidak. Bentuk model ini terlihat mirip dengan regresi linier berganda, kecuali bahwa kami menggunakan distribusi kesalahan yang sedikit berbeda (distribusi logistik dan bukan distribusi normal), dan yang lebih penting, kami hanya mengamati indikator yang menunjukkan apakah tanggapan laten positif atau tidak. . $Y_i^*$ $Y_i$

Ini menciptakan masalah untuk setiap upaya untuk membuat kecocokan dua langkah dari model. Teorema Frisch-Waugh-Lovell ini bertumpu pada kemampuan untuk mendapatkan residu menengah untuk respons dan prediktor minat, diambil terhadap variabel penjelas lainnya. Dalam kasus ini, kami hanya dapat memperoleh residu dari variabel respons "yang dikategorikan". Membuat proses pemasangan dua langkah untuk regresi logistik akan mengharuskan Anda untuk menggunakan residu respons dari variabel respons yang dikategorikan ini, tanpa akses ke respons laten yang mendasarinya. Bagi saya, ini seperti rintangan besar, dan meskipun tidak membuktikan ketidakmungkinan, tampaknya tidak mungkin untuk mencocokkan model dalam dua langkah.

Di bawah ini saya akan memberi Anda akun tentang apa yang diperlukan untuk menemukan proses dua langkah agar sesuai dengan regresi logistik. Saya tidak yakin apakah ada solusi untuk masalah ini, atau jika ada bukti ketidakmungkinan, tetapi materi di sini harus memberi Anda cara untuk memahami apa yang diperlukan.

Seperti apa bentuk regresi logistik dua langkah? Misalkan kita ingin membangun kecocokan dua langkah untuk model regresi logistik di mana parameter diestimasi melalui estimasi kemungkinan-maksimum pada setiap langkah. Kami ingin proses melibatkan langkah menengah yang sesuai dengan dua model berikut:

\begin{matrix} Y_{i} = I (Y_{i}^{* *} > 0) & Y_{i}^{* *} = α_{0} + α_{X} x_{i} + τ_{i} & τ_{i} \sim IID Logistic (0, 1), \\ Z_{i} = γ_{0} + γ_{X} x_{i} + δ_{i} & δ_{i} \sim IID g . \end{matrix}

$\begin{matrix} Y_i = \mathbb{I}(Y_i^{**} > 0) & & & Y_i^{**} = \alpha_0 + \alpha_X x_i + \tau_i & & & \tau_i \sim \text{IID Logistic}(0,1), \\[6pt] & & & \text{ } \text{ } Z_i = \gamma_0 + \gamma_X x_i + \delta_i & & & \delta_i \sim \text{IID } g. \quad \quad \quad \quad \quad \\ \end{matrix}$

Kami memperkirakan koefisien model-model ini (melalui MLEs) dan ini menghasilkan nilai-nilai terpasang menengah . Kemudian pada langkah kedua kita cocok dengan model: $\hat{\alpha}_0, \hat{\alpha}_X, \hat{\gamma}_0, \hat{\gamma}_X$

Y_{i} = logistic ({\hat{α}}_{0} + {\hat{α}}_{1} x_{i}) + β_{Z} (z_{i} - {\hat{γ}}_{0} - {\hat{γ}}_{X} x_{i}) + ϵ_{i} ϵ_{i} \sim IID f .

$Y_i = \text{logistic}(\hat{\alpha}_0 + \hat{\alpha}_1 x_i) + \beta_Z (z_i - \hat{\gamma}_0 - \hat{\gamma}_X x_i) + \epsilon_i \quad \quad \quad \epsilon_i \sim \text{IID } f.$

Seperti yang ditentukan, prosedur memiliki banyak elemen tetap, tetapi fungsi kerapatan dan dalam langkah-langkah ini tidak ditentukan (meskipun mereka harus distribusi rata-rata nol yang tidak bergantung pada data). Untuk mendapatkan metode pemasangan dua langkah di bawah kendala ini, kita harus memilih dan untuk memastikan bahwa MLE untuk dalam algoritma model-fit dua langkah ini sama dengan MLE yang diperoleh dari model regresi logistik satu langkah atas. $g$ $f$ $g$ $f$ $\beta_Z$

Untuk melihat apakah ini mungkin, pertama-tama kami menulis semua parameter yang diestimasi dari langkah pertama:

\begin{aligned} ℓ_{y | x} ({\hat{α}}_{0}, {\hat{α}}_{X}) & = max_{α_{0}, α_{X}} \sum_{i = 1}^{n} \ln Bern (y_{i} | logistic (α_{0} + α_{X} x_{i})), \\ ℓ_{z | x} ({\hat{γ}}_{0}, {\hat{γ}}_{X}) & = max_{γ_{0}, γ_{X}} \sum_{i = 1}^{n} \ln g (z_{i} - γ_{0} - γ_{X} x_{i}) . \end{aligned}

$\begin{equation} \begin{aligned} \ell_{\mathbf{y}| \mathbf{x}} (\hat{\alpha}_0, \hat{\alpha}_X) &= \underset{\alpha_0, \alpha_X}{\max} \sum_{i=1}^n \ln \text{Bern}(y_i | \text{logistic}(\alpha_0 + \alpha_X x_i)), \\[10pt] \ell_{\mathbf{z}| \mathbf{x}} (\hat{\gamma}_0, \hat{\gamma}_X) &= \underset{\gamma_0, \gamma_X}{\max} \sum_{i=1}^n \ln g( z_i - \gamma_0 - \gamma_X x_i ). \end{aligned} \end{equation}$

Biarkan sehingga fungsi log-likelihood untuk langkah kedua adalah: $\epsilon_i = y_i - \text{logistic}(\hat{\alpha}_0 - \hat{\alpha}_1 x_i) + \beta_Z (z_i - \hat{\gamma}_0 - \hat{\gamma}_X x_i)$

ℓ_{y | z | x} (β_{Z}) = \sum_{i = 1}^{n} \ln f (y_{i} - logistic ({\hat{α}}_{0} - {\hat{α}}_{1} x_{i}) + β_{Z} (z_{i} - {\hat{γ}}_{0} - {\hat{γ}}_{X} x_{i})) .

$\ell_{\mathbf{y}|\mathbf{z}|\mathbf{x}}(\beta_Z) = \sum_{i=1}^n \ln f(y_i - \text{logistic}(\hat{\alpha}_0 - \hat{\alpha}_1 x_i) + \beta_Z (z_i - \hat{\gamma}_0 - \hat{\gamma}_X x_i)).$

Kami mensyaratkan bahwa nilai maksimal dari fungsi ini adalah MLE dari model regresi logistik berganda. Dengan kata lain, kami membutuhkan:

\underset{β_{X}}{arg max} ℓ_{y | z | x} (β_{Z}) = \underset{β_{X}}{arg max} max_{β_{0}, β_{Z}} \sum_{i = 1}^{n} \ln Bern (y_{i} | logistic (β_{0} + β_{X} x_{i} + β_{Z} z_{i})) .

$\underset{\beta_X}{\text{arg max }} \ell_{\mathbf{y}|\mathbf{z}|\mathbf{x}}(\beta_Z) = \underset{\beta_X}{\text{arg max }} \underset{\beta_0, \beta_Z}{\max} \sum_{i=1}^n \ln \text{Bern}(y_i | \text{logistic}(\beta_0 + \beta_X x_i + \beta_Z z_i)).$

Saya serahkan kepada orang lain untuk menentukan apakah ada solusi untuk masalah ini, atau bukti tidak ada solusi. Saya menduga bahwa "kategorisasi" dari variabel respon laten dalam regresi logistik akan membuat tidak mungkin untuk menemukan proses dua langkah.

Ben - Pasang kembali Monica
sumber

Hai @Ben, terima kasih telah mengajari saya tentang teorema Frisch – Waugh – Lovell. Saya gagal pada hadiah - pikir "kadaluwarsa" berarti itu hanya berhenti diiklankan. Maaf soal itu. Saya suka ide Anda berdasarkan kemungkinan. Mungkin mencobanya atau yang serupa dan posting di bawah.

Ben Ogorek

@ Ben Ogorek: Tidak ada kekhawatiran pada hadiah. Senang jawabannya membantu.

Ben - Pasang kembali Monica,

@Ben Ogorek: (Untuk mengganti 25 poin hadiah yang hilang, yang hilang ke eter, pergilah ke sekeliling situs dan berikan suara untuk 3 jawaban. Kemudian karma Anda dipulihkan!)

Ben - Reinstate Monica

Selesai! (Dan saya memang membacanya dulu).

Ben Ogorek

Saya mungkin salah mengartikan pertanyaan itu. Saya ragu Anda dapat membangun persamaan regresi linier dengan regresi residu dengan cara yang ditentukan OP . Metode OP hanya akan berfungsi jika prediktornya independen satu sama lain.

Untuk membuatnya bekerja, anggap adalah vektor hasil, adalah matriks model untuk prediktor yang sudah ada dalam model dan Anda ingin memasukkan . Anda perlu mengembalikan residu dari regresi pada terhadap residu regresi pada untuk mendapatkan koefisien OLS untuk . $y$ $X$ $x_1$ $y$ $X$ $x_1$ $X$ $x_1$

Berikut ini contoh sederhana:

set.seed(12345)
n <- 5000
x1 <- rnorm(n)
x2 <- .5 * x1 + rnorm(n) # Correlated predictors
y <- x1 + x2 + rnorm(n)

Fit model dengan OLS:

coef(lm(y ~ x1 + x2))
(Intercept)          x1          x2 
0.001653707 1.037426007 0.996259446

Regresi pada residu:

coef(lm(residuals(lm(y ~ x1)) ~ x2))
(Intercept)          x2 
0.001219232 0.818774874

Ini salah, Anda harus menyesuaikan:

coef(lm(residuals(lm(y ~ x1)) ~ residuals(lm(x2 ~ x1))))
           (Intercept) residuals(lm(x2 ~ x1)) 
         -6.707350e-17           9.962594e-01

Yang mengembalikan koefisien yang tepat untuk x2, ini selaras dengan perbedaan yang diharapkan dalam y diberikan perbedaan dalam x2, memegang x1 konstan (mengeluarkannya dari y dan x1).

Selain itu, dalam regresi logistik, itu bahkan akan lebih bermasalah karena koefisien regresi logistik menderita bias variabel yang dihilangkan bahkan tanpa adanya hubungan yang membingungkan, lihat di sini dan di sini , jadi kecuali semua prediktor hasil dalam model, kita tidak dapat memperoleh perkiraan yang tidak bias dari parameter populasi sebenarnya. Selain itu, saya tidak tahu adanya residu dari model yang akan menerima regresi logistik kedua dengan semua nilai berada di antara 0 dan 1.

Beberapa referensi tentang regresi residu:

Maxwell, SE, Delaney, HD, & Manheimer, JM (1985). Anova dari Residual dan Ancova: Mengoreksi Ilusi dengan Menggunakan Perbandingan Model dan Grafik. Jurnal Statistik Pendidikan, 10 (3), 197-209. Diperoleh dari http://journals.sagepub.com/doi/pdf/10.3102/10769986010003197
Freckleton, RP (2002), Tentang penyalahgunaan residu dalam ekologi: regresi residu vs regresi berganda. Jurnal Ekologi Hewan, 71 , 542-545. doi: 10.1046 / j.1365-2656.2002.00618.x

Jim hetereteredastik
sumber

Saya pikir beberapa paragraf pertama Anda sedikit menyesatkan / tidak jelas ... akan lebih baik jika Anda mulai dengan bagaimana Anda benar-benar melakukan 'regresi linier dengan residu' .. (+1) dan Anda dapat menemukannya dalam elemen pembelajaran statistik ( regresi berganda dari ayat regresi tunggal?)

seanv507

Dalam banyak implementasi, Anda dapat melewati prediksi 'basis' (parameter offset di glmnet), jadi mungkin ini akan mungkin setelah melakukan regresi pada vars dependen

seanv507

@ seanv507 Saya sudah memasukkannya dalam jawaban saya. Ini adalah demonstrasi kode terakhir yang saya miliki. Itu tidak mungkin dalam cara OP menggambarkan, merestorasi residu pada prediktor. Tapi saya bisa menulis ulang untuk menunjukkan cara yang tepat dari awal jika itu yang Anda maksud.

Heteroskedastic Jim

Ya saya maksud menulis ulang untuk menunjukkan cara yang tepat dari awal,

seanv507

@ seanv507 tidak tahu apa yang Anda maksud dengan Anda dapat melewati prediksi dasar? Dan regresi variabel dependen?

Heteroskedastic Jim

Saya harap saya tidak salah menafsirkan pertanyaan Anda, karena jawaban saya akan sedikit mengubah kata-kata tentang bagaimana Anda mengutarakan subjek Anda.

Saya pikir apa yang Anda coba lakukan adalah membangun model regresi Anda dengan menambahkan satu variabel independen pada suatu waktu. Dan, Anda melakukannya dengan mengamati variabel prospektif mana yang memiliki korelasi tertinggi dengan sisa regresi pertama Anda antara Y dan X1. Jadi, variabel dengan korelasi tertinggi dengan residual pertama ini adalah X2. Jadi, sekarang Anda memiliki model dengan dua variabel independen X1 & X2. Dan, Anda melanjutkan proses yang tepat ini untuk memilih X3, X4, dll. Ini adalah proses maju bertahap.

Anda dapat melakukan hal yang sama persis dengan Regresi Logistik untuk alasan sederhana bahwa Regresi Logistik cukup banyak Regresi OLS di mana variabel dependen adalah log dari ganjil (atau logit). Tapi, apakah Y adalah logit atau tidak tidak mempengaruhi proses stepwise forward yang disebutkan di atas.

OLS meminimalkan jumlah kesalahan kuadrat agar sesuai dengan data aktual. Regresi logit menggunakan proses kemungkinan maksimum yang menghasilkan kecocokan yang tidak jauh berbeda dari OLS. Dan, itu juga (mekanisme pemasangan) seharusnya tidak memengaruhi proses maju bertahap yang memungkinkan Anda membangun model regresi berganda, apakah yang terakhir adalah Regresi OLS atau Regresi Logit.

Sympa
sumber