Kami memiliki data dengan hasil biner dan beberapa kovariat. Saya menggunakan regresi logistik untuk memodelkan data. Hanya analisis sederhana, tidak ada yang luar biasa. Hasil akhir seharusnya adalah kurva dosis-respons di mana kami menunjukkan bagaimana probabilitas berubah untuk kovariat tertentu. Sesuatu seperti ini:
Kami menerima beberapa kritik dari peninjau internal (bukan ahli statistik murni) karena memilih regresi logistik. Regresi logistik mengasumsikan (atau mendefinisikan) bahwa titik belok kurva berbentuk S pada skala probabilitas adalah pada probabilitas 0,5. Dia berpendapat bahwa tidak akan ada alasan untuk mengasumsikan bahwa titik belok memang pada probabilitas 0,5 dan kita harus memilih model regresi yang berbeda yang memungkinkan titik belok bervariasi sehingga posisi aktual adalah data didorong.
Pada awalnya saya tertangkap basah oleh argumennya, karena saya tidak pernah memikirkan hal ini. Saya tidak memiliki alasan mengapa dibenarkan untuk mengasumsikan bahwa titik belok adalah 0,5. Setelah melakukan riset, saya masih belum memiliki jawaban untuk pertanyaan ini.
Saya menemukan regresi logistik 5-parameter, di mana titik belok adalah parameter tambahan, tetapi tampaknya model regresi ini biasanya digunakan ketika menghasilkan kurva dosis-respons dengan hasil yang berkelanjutan. Saya tidak yakin apakah dan bagaimana hal itu dapat diperluas ke variabel respons biner.
Saya kira pertanyaan utama saya adalah mengapa atau kapan boleh diasumsikan bahwa titik belok untuk regresi logistik adalah 0,5? Apakah itu penting? Saya belum pernah melihat orang yang cocok dengan model regresi logistik dan secara eksplisit membahas masalah titik belok. Apakah ada alternatif untuk membuat kurva respons dosis di mana titik belok tidak harus sebesar 0,5?
Hanya untuk kelengkapan, kode R untuk menghasilkan gambar di atas:
dat <- read.csv("http://www.ats.ucla.edu/stat/data/binary.csv")
dat$rank <- factor(dat$rank)
logit <- glm(admit ~ gre + gpa + rank, family = binomial(link = "logit"), data = dat)
newdata <- data.frame(gre = seq(-2000,8000,1), gpa = 2.5, rank = factor(1,c(1,2,3,4)))
pp <- predict(logit, newdata, type = "response", se.fit = TRUE)
plot(newdata$gre, pp$fit, type="l", col="black", lwd=2,ylab="Probability", xlab="Dose")
Edit 1:
Hanya untuk menambahkan apa yang dikatakan Scortchi dalam salah satu komentar: Peninjau memang berpendapat bahwa secara biologis mungkin lebih mungkin bahwa perubahan kelengkungan terjadi lebih awal dari 0,5. Oleh karena itu penolakannya terhadap asumsi bahwa titik belok berada di 0,5.
Edit 2:
Sebagai reaksi terhadap komentar oleh Frank Harrell:
Sebagai contoh, saya memodifikasi model saya di atas untuk memasukkan istilah kuadrat dan kubik gre
(yang merupakan "dosis" dalam contoh ini).
logit <- glm(admit ~ gre+I(gre^2)+I(gre^3)+ gpa + rank, family = binomial(link = "logit"), data = dat)
newdata <- data.frame(admit=1, gre = seq(-2000,8000,1), gpa = 2.5, rank = factor(1,c(1,2,3,4)))
pp <- predict(logit, newdata, type = "response", se.fit = TRUE)
plot(newdata$gre, pp$fit, type="l", col="black", lwd=2,xlim=c(-2000,4000),ylab="Probability", xlab="Dose")
Terlepas dari kenyataan bahwa mungkin tidak bermakna untuk menambahkan gre
istilah kuadrat dan kubik dalam kasus ini, kita melihat bahwa bentuk kurva dosis-respons telah berubah. Memang kita sekarang memiliki dua titik belok di sekitar 0,25 dan dekat 0,7.
Jawaban:
Sebagaimana disentuh oleh @scortchi, peninjau beroperasi di bawah kesan salah bahwa tidak mungkin untuk memodelkan efek nonlinier dari prediktor pada skala logit dalam konteks regresi logistik. Model asli cepat untuk mengasumsikan linearitas semua prediktor. Dengan melonggarkan asumsi linearitas, menggunakan misalnya splines kubik terbatas (natural splines), seluruh bentuk kurva adalah fleksibel dan titik belok tidak lagi menjadi masalah. Jika ada satu prediktor dan diperluas menggunakan spline regresi, orang bisa mengatakan bahwa model logistik hanya membuat asumsi kelancaran dan independensi pengamatan.
sumber
Sepertinya saya bahwa resensi buku hanya mencari sesuatu untuk dikatakan. Sebelum memeriksa fitur spesifikasi seperti titik infleksi tersirat, ada satu ton asumsi yang telah kami buat, untuk sampai pada model yang dapat diperkirakan. Semua dapat dipertanyakan dan diperdebatkan - penggunaan fungsi logistik itu sendiri menjadi target utama yang mungkin: siapa yang memberi tahu kami bahwa distribusi kondisional dari istilah kesalahan yang mendasar adalah logistik? Tak seorangpun.
Jadi masalahnya adalah: apa yang ditandakan oleh perubahan kelengkungan? Seberapa penting bagi fenomena dunia nyata yang sedang diteliti, mungkin menjadi titik di mana perubahan kelengkungan ini terjadi, sehingga kita akan mempertimbangkan untuk menjadikannya "berbasis data"? Beranjak lebih jauh dari prinsip kekikiran?
Pertanyaannya bukan "mengapa titik belok harus di 0,5?" Tapi "seberapa menyesatkannya kesimpulan kita jika dibiarkan 0,5?".
sumber
Dalam mho, regresi logit adalah pilihan yang masuk akal untuk dosis-respons. Tentu saja, Anda dapat menggunakan probit, log-log, tautan c-log-log, dan membandingkan kebaikan yang sesuai (DEV, BIC, CAIC, dll.). Tetapi regresi logit yang paling sederhana memberikan penilaian formal yang nyaman dari titik belok LD50 = -b0 / b1. Kita ingat bahwa itu adalah poin spesifik, yang untuknya kita memperoleh ketidakpastian minimum (lih., LD16, LD84, dan yang lainnya akan memiliki CI yang lebih luas, lihat "Analisis Probit" dari Finney, 1947, 1977). Dalam pengalaman saya, selalu (?) Lebih baik menggunakan logaritma dosis, dan kemudian hanya mengubah CI 95% dalam skala asli. Apa sifat kovariat lainnya dalam model? Saya menyinggung kemungkinan untuk menggunakan pendekatan multi-model ... Tentu saja Splines fleksibel, tetapi parameter formal diartikan lebih mudah!
Lihat http://www.epa.gov/ncea/bmds/bmds_training/software/overp.htm
sumber
Titik belok 0,5 adalah bagian kecil dari pertanyaan yang lebih besar: persamaan logistik adalah dengan konstruksi simetris. Dan di sebagian besar derivasi itu, efek yang dimodelkan memiliki alasan untuk menjadi simetris. misal ketika satu pemain menang, pemain lain kalah, atau efek yang bertanggung jawab atas kejenuhan adalah efek fisik yang sama yang bertanggung jawab untuk pertumbuhan awal, dll. Jadi, jika ada alasan mengapa asal mula perilaku X rendah adalah asal yang sama sebagai tangan kanan behavious atau karena alasan lain masalahnya simetris maka Anda memiliki pembenaran Anda.
jika tidak, mungkin maka model paling sederhana berikutnya adalah persamaan logistik umum. ini memiliki lebih banyak parameter dan Anda mungkin ingin menambahkan kendala sehingga tidak semuanya parameter gratis. ini mungkin lebih diinginkan daripada lumpur yang Anda tambahkan karena mereka menambahkan rak di mana turunan pertama berosilasi bolak-balik - hal semacam itu cenderung menciptakan titik-titik fiktif palsu dari keseimbangan lokal jika Anda mencoba untuk mengoptimalkan beberapa nilai ekspektasi dari ini distribusi. bentuk generalisasi akan memecah simetri tetapi dengan cara yang halus.
sumber