Regresi linier-log vs regresi logistik

21

Adakah yang bisa memberikan daftar perbedaan yang jelas antara regresi log-linear dan regresi logistik? Saya mengerti yang pertama adalah model regresi linier sederhana tetapi saya tidak jelas kapan masing-masing harus digunakan.

pengguna38133
sumber

Jawaban:

19

Nama itu sedikit keliru. Model log-linear secara tradisional digunakan untuk analisis data dalam format tabel kontingensi. Sementara "data hitung" tidak perlu mengikuti distribusi Poisson, model log-linear sebenarnya hanya model regresi Poisson. Karenanya nama "log" (model regresi Poisson berisi fungsi tautan "log").

"Variabel hasil transformasi log" dalam model regresi linier bukan model log-linear, (tidak juga merupakan variabel hasil eksponensial, seperti yang disarankan "log-linear"). Kedua model log-linear dan regresi logistik adalah contoh dari model linear umum , di mana hubungan antara prediktor linier (seperti log-odds atau log-rates) adalah linear dalam variabel model. Mereka bukan "model regresi linier sederhana" (atau model yang menggunakan format ).E[Y|X]=Sebuah+bX

Terlepas dari semua itu, dimungkinkan untuk memperoleh kesimpulan yang setara tentang hubungan antara variabel kategori menggunakan regresi logistik dan regresi poisson. Hanya saja dalam model poisson, variabel hasil diperlakukan seperti kovariat. Menariknya, Anda dapat mengatur beberapa model yang meminjam informasi lintas grup dengan cara yang mirip dengan model odds proporsional, tetapi ini tidak dipahami dengan baik dan jarang digunakan.

Contoh mendapatkan inferensi setara dalam model regresi logistik dan poisson menggunakan R diilustrasikan di bawah ini:

y <- c(0, 1, 0, 1)
x <- c(0, 0, 1, 1)
w <- c(10, 20, 30, 40)

## odds ratio for relationship between x and y from logistic regression
glm(y ~ x, family=binomial, weights=w)

## the odds ratio is the same interaction parameter between contingency table frequencies
glm(w ~ y * x, family=poisson)

yx

AdamO
sumber
Sekali lagi, ini mungkin menunjukkan pengalaman saya, tetapi apakah Anda dapat memberikan definisi untuk tabel kontingensi? Mungkin juga membantu orang lain yang menemukan pertanyaan ini.
user38133
Tabel kontingensi adalah (biasanya) tabel 2 dimensi yang menyebutkan semua kemungkinan tanggapan dari dua variabel dan menunjukkan frekuensi pengamatan dalam sel. Misalnya, Anda mungkin memiliki tabel kontingensi 2 x 2 yang menunjukkan status merokok (tidak pernah vs saat ini) dan kanker (paru-paru vs tidak ada kanker) yang akan Anda gunakan untuk memperkirakan hubungan antara merokok dan risiko kanker.
AdamO
15

Saya tidak berpikir saya akan menyebut salah satu dari mereka "model regresi linier sederhana". Meskipun dimungkinkan untuk menggunakan log atau transformasi logit sebagai fungsi tautan untuk sejumlah model yang berbeda, ini biasanya dipahami untuk merujuk ke model tertentu. Misalnya, "regresi logistik" dipahami sebagai model linier umum (GLiM) untuk situasi di mana variabel respons didistribusikan sebagai binomial . Selain itu, "regresi log-linear" biasanya dipahami sebagai GLMM Poisson yang diterapkan pada tabel kontingensi multi-arah. Dengan kata lain, di luar fakta bahwa keduanya adalah model regresi / GLIM, saya tidak melihat mereka sebagai sangat mirip (ada beberapa koneksi di antara mereka, seperti yang ditunjukkan oleh @AdamO, tetapi penggunaan tipikal cukup berbeda). Perbedaan terbesar adalah bahwa regresi logistik mengasumsikan respons didistribusikan sebagai regresi binomial dan log-linier mengasumsikan respons didistribusikan sebagai Poisson . Faktanya, regresi log-linier agak berbeda dari kebanyakan model regresi karena variabel responsnya tidak benar-benar salah satu dari variabel Anda sama sekali (dalam arti biasa), melainkan kumpulan hitung frekuensi yang terkait dengan kombinasi variabel Anda di tabel kontingensi multi-arah.

gung - Reinstate Monica
sumber
Terima kasih! Saya kira kemudian pertanyaan tindak lanjut alami saya, salah satu yang mungkin menunjukkan kurangnya pengalaman saya, adalah tentang bagaimana menentukan distribusi yang tepat untuk memodelkan masalah yang diberikan. Saya pikir saya perlu membaca sedikit lebih banyak untuk memastikan saya selalu dapat memilih dengan benar.
user38133
2
{0, 1}
0

Untuk memperjelas, regresi logistik "biner" memiliki variabel dependen dengan dua hasil. Pemahaman saya adalah bahwa ada juga pilihan untuk menggunakan regresi logistik "multinomial" jika variabel hasil dan dependen Anda memiliki lebih dari 2 kategori. Lihat di sini .

M. Phipps
sumber