Investigasi ketahanan regresi logistik terhadap pelanggaran linearitas logit

10

Saya sedang melakukan regresi logistik dengan hasil biner (mulai dan tidak mulai). Campuran prediktor saya semuanya adalah variabel kontinu atau dikotomis.

Menggunakan pendekatan Box-Tidwell, salah satu prediktor kontinu saya berpotensi melanggar asumsi linearitas logit. Tidak ada indikasi dari statistik good-of-fit yang cocok bermasalah.

Saya kemudian menjalankan model regresi lagi, menggantikan variabel kontinu asli dengan: pertama, transformasi akar kuadrat dan kedua, versi dikotomis dari variabel.

Pada inspeksi output, tampaknya good-of-fit membaik secara marginal tetapi residu menjadi bermasalah. Estimasi parameter, kesalahan standar, dan tetap relatif sama. Interpretasi data tidak berubah dalam hal hipotesis saya, di ketiga model.exp(β)

Oleh karena itu, dalam hal kegunaan hasil saya dan rasa interpretasi data, tampaknya tepat untuk melaporkan model regresi menggunakan variabel kontinu asli.

Saya bertanya-tanya ini:

  1. Kapan regresi logistik kuat terhadap potensi pelanggaran linearitas asumsi logit?
  2. Dengan contoh saya di atas, apakah masuk akal untuk memasukkan variabel kontinu asli dalam model?
  3. Apakah ada referensi atau panduan di luar sana untuk merekomendasikan ketika memuaskan untuk menerima bahwa model tersebut kuat terhadap potensi pelanggaran linearitas logit?
Elizabeth pendek
sumber

Jawaban:

16

Asumsi linearitas begitu sering dilanggar dalam regresi sehingga harus disebut kejutan daripada asumsi. Seperti model regresi lainnya, model logistik tidak kuat untuk nonlinier ketika Anda salah mengasumsikan linearitas. Daripada mendeteksi nonlinieritas menggunakan residu atau uji kelaikan omnibus, lebih baik menggunakan tes langsung. Misalnya, perluas prediktor kontinu menggunakan splines regresi dan lakukan uji komposit semua istilah nonlinear. Lebih baik lagi jangan menguji persyaratan dan hanya mengharapkan nonlinier. Pendekatan ini jauh lebih baik daripada mencoba berbagai pilihan kemiringan tunggal transformasi seperti akar kuadrat, log, dll., Karena kesimpulan statistik yang muncul setelah analisis tersebut akan salah karena tidak memiliki derajat kebebasan pembilang yang cukup besar.

Berikut ini contoh dalam R.

require(rms)
f <- lrm(y ~ rcs(age,4) + rcs(blood.pressure,5) + sex + rcs(height,4))
# Fits restricted cubic splines in 3 variables with default knots
# 4, 5, 4 knots = 2, 3, 2 nonlinear terms
Function(f)   # display algebraic form of fit
anova(f)      # obtain individual + combined linearity tests
Frank Harrell
sumber
Jawaban Anda sangat masuk akal - terima kasih! Bisakah Anda menyarankan sintaks untuk digunakan dalam SPSS? Sayangnya saya tidak memiliki akses (atau keterampilan) untuk memanfaatkan R.
Short Elizabeth
1
Pasti sepadan dengan waktu untuk mempelajari R, dan saya memiliki banyak handout terkait dengan pemodelan logistik dan paket rms. Ini akan sulit dilakukan di SPSS.
Frank Harrell
@ Frankharrell: f <- lrm(y ~ ...baris memberikan kesalahan object 'y' not found- dapatkah Anda memperbaikinya?
arielf
1
Itu adalah kesalahan R yang sangat mendasar yang tidak unik untuk rmspaket saya . Luangkan waktu untuk mengenal R, dimulai dengan materi yang luas tersedia untuk lmfungsi regresi dasar .
Frank Harrell
1
Contoh bawaan untuk halaman bantuan perangkat lunak mensimulasikan data seperti itu, jadi lihatlah seluruh contoh dalam konteks. Apakah require(rms)kemudian ?lrmkemudianexamples(lrm)
Frank Harrell