Titik Regresi dan Infleksi Logistik

11

Kami memiliki data dengan hasil biner dan beberapa kovariat. Saya menggunakan regresi logistik untuk memodelkan data. Hanya analisis sederhana, tidak ada yang luar biasa. Hasil akhir seharusnya adalah kurva dosis-respons di mana kami menunjukkan bagaimana probabilitas berubah untuk kovariat tertentu. Sesuatu seperti ini:

masukkan deskripsi gambar di sini

Kami menerima beberapa kritik dari peninjau internal (bukan ahli statistik murni) karena memilih regresi logistik. Regresi logistik mengasumsikan (atau mendefinisikan) bahwa titik belok kurva berbentuk S pada skala probabilitas adalah pada probabilitas 0,5. Dia berpendapat bahwa tidak akan ada alasan untuk mengasumsikan bahwa titik belok memang pada probabilitas 0,5 dan kita harus memilih model regresi yang berbeda yang memungkinkan titik belok bervariasi sehingga posisi aktual adalah data didorong.

Pada awalnya saya tertangkap basah oleh argumennya, karena saya tidak pernah memikirkan hal ini. Saya tidak memiliki alasan mengapa dibenarkan untuk mengasumsikan bahwa titik belok adalah 0,5. Setelah melakukan riset, saya masih belum memiliki jawaban untuk pertanyaan ini.

Saya menemukan regresi logistik 5-parameter, di mana titik belok adalah parameter tambahan, tetapi tampaknya model regresi ini biasanya digunakan ketika menghasilkan kurva dosis-respons dengan hasil yang berkelanjutan. Saya tidak yakin apakah dan bagaimana hal itu dapat diperluas ke variabel respons biner.

Saya kira pertanyaan utama saya adalah mengapa atau kapan boleh diasumsikan bahwa titik belok untuk regresi logistik adalah 0,5? Apakah itu penting? Saya belum pernah melihat orang yang cocok dengan model regresi logistik dan secara eksplisit membahas masalah titik belok. Apakah ada alternatif untuk membuat kurva respons dosis di mana titik belok tidak harus sebesar 0,5?

Hanya untuk kelengkapan, kode R untuk menghasilkan gambar di atas:

dat <- read.csv("http://www.ats.ucla.edu/stat/data/binary.csv")
dat$rank <- factor(dat$rank)
logit <- glm(admit ~ gre + gpa + rank, family = binomial(link = "logit"), data = dat)
newdata <- data.frame(gre = seq(-2000,8000,1), gpa = 2.5, rank = factor(1,c(1,2,3,4)))
pp <- predict(logit, newdata, type = "response", se.fit = TRUE)
plot(newdata$gre, pp$fit, type="l", col="black", lwd=2,ylab="Probability", xlab="Dose")

Edit 1:

Hanya untuk menambahkan apa yang dikatakan Scortchi dalam salah satu komentar: Peninjau memang berpendapat bahwa secara biologis mungkin lebih mungkin bahwa perubahan kelengkungan terjadi lebih awal dari 0,5. Oleh karena itu penolakannya terhadap asumsi bahwa titik belok berada di 0,5.

Edit 2:

Sebagai reaksi terhadap komentar oleh Frank Harrell:

Sebagai contoh, saya memodifikasi model saya di atas untuk memasukkan istilah kuadrat dan kubik gre(yang merupakan "dosis" dalam contoh ini).

logit <- glm(admit ~ gre+I(gre^2)+I(gre^3)+  gpa + rank, family = binomial(link = "logit"), data = dat)
newdata <- data.frame(admit=1, gre = seq(-2000,8000,1), gpa = 2.5, rank = factor(1,c(1,2,3,4)))
pp <- predict(logit, newdata, type = "response", se.fit = TRUE)
plot(newdata$gre, pp$fit, type="l", col="black", lwd=2,xlim=c(-2000,4000),ylab="Probability", xlab="Dose")

masukkan deskripsi gambar di sini

Terlepas dari kenyataan bahwa mungkin tidak bermakna untuk menambahkan greistilah kuadrat dan kubik dalam kasus ini, kita melihat bahwa bentuk kurva dosis-respons telah berubah. Memang kita sekarang memiliki dua titik belok di sekitar 0,25 dan dekat 0,7.

Francis
sumber
2
Apakah itu tidak sama dengan meminta untuk menyelidiki hubungan prediktor non-linear dengan peluang log respon?
Scortchi

Jawaban:

8

Sebagaimana disentuh oleh @scortchi, peninjau beroperasi di bawah kesan salah bahwa tidak mungkin untuk memodelkan efek nonlinier dari prediktor pada skala logit dalam konteks regresi logistik. Model asli cepat untuk mengasumsikan linearitas semua prediktor. Dengan melonggarkan asumsi linearitas, menggunakan misalnya splines kubik terbatas (natural splines), seluruh bentuk kurva adalah fleksibel dan titik belok tidak lagi menjadi masalah. Jika ada satu prediktor dan diperluas menggunakan spline regresi, orang bisa mengatakan bahwa model logistik hanya membuat asumsi kelancaran dan independensi pengamatan.

Frank Harrell
sumber
Saya harus mengakui bahwa saya tidak terlalu terbiasa dengan regresi spline. Bagaimana saya lalu melakukan ini bersama dengan regresi logistik (dalam R). Saya memodifikasi posting asli saya (edit 2) untuk memasukkan istilah polinomial dalam prediktor. Bisakah saya menggunakan ini sebagai alternatif untuk spline smoothing. Tentu saja saya tidak memiliki fleksibilitas yang sama dengan splines.
Francis
1
@ Franco: Strategi Pemodelan Regresi Frank Harrell sendiri - buku , situs web , paket R - akan membantu Anda mewujudkannya . Diskusi singkat tentang beberapa keuntungan dari regresi splines ada di sini ; tetapi Anda tentu saja benar bahwa polinomial adalah alternatif.
Scortchi
4

Sepertinya saya bahwa resensi buku hanya mencari sesuatu untuk dikatakan. Sebelum memeriksa fitur spesifikasi seperti titik infleksi tersirat, ada satu ton asumsi yang telah kami buat, untuk sampai pada model yang dapat diperkirakan. Semua dapat dipertanyakan dan diperdebatkan - penggunaan fungsi logistik itu sendiri menjadi target utama yang mungkin: siapa yang memberi tahu kami bahwa distribusi kondisional dari istilah kesalahan yang mendasar adalah logistik? Tak seorangpun.

Jadi masalahnya adalah: apa yang ditandakan oleh perubahan kelengkungan? Seberapa penting bagi fenomena dunia nyata yang sedang diteliti, mungkin menjadi titik di mana perubahan kelengkungan ini terjadi, sehingga kita akan mempertimbangkan untuk menjadikannya "berbasis data"? Beranjak lebih jauh dari prinsip kekikiran?

Pertanyaannya bukan "mengapa titik belok harus di 0,5?" Tapi "seberapa menyesatkannya kesimpulan kita jika dibiarkan 0,5?".

Alecos Papadopoulos
sumber
2
Tampaknya agak tidak bisa ditiru. Kami tidak tahu bahwa peninjau tidak memiliki alasan yang baik untuk menentang asumsi ini daripada yang lain yang mungkin ditentangnya. Biarkan ke satu sisi cara yang aneh untuk menempatkannya dalam hal titik belok, & kesalahpahaman yang mungkin tentang regresi logistik, & dia pada dasarnya bertanya mengapa model memungkinkan kurva bergeser & meregang tetapi tidak menekuk, yang mungkin layak mendapatkan jawaban.
Scortchi
@Scortchi "cara aneh untuk menjelaskannya" ... "kemungkinan kesalahpahaman tentang regresi logistik" ... Jika ini yang diperlukan untuk merasionalisasi kritik peninjau, (s) ia seharusnya tidak meninjau kertas setelah semua.
Alecos Papadopoulos
1
Seperti halnya @Scortchi saya menemukan ini agak terlalu tajam. Banyak orang yang lebih aktif di sini memiliki latar belakang dalam berbagai ilmu daripada statistik arus utama. Menjadi ahli statistik, murni atau tidak, tidak penting atau tidak cukup untuk memberikan nasihat yang baik (meskipun dalam hampir semua kasus itu secara nyata akan membantu).
Nick Cox
@Nick Cox Saya menerima "ketajaman", dan saya baru saja menghapus kalimat terakhir saya, sebagai tanda konsensus. Maksud saya adalah bahwa mempertanyakan secara umum asumsi model tidak memiliki nilai-model selalu salah. Jadi JIKA probabilitas di mana perubahan kelengkungan entah bagaimana kritis untuk fenomena dunia nyata yang diteliti, maka peninjau itu memang sangat tepat untuk meminta bahwa titik ini menjadi didorong oleh data. Tetapi jika resensi hanya berkomentar "mengapa pada p = 0,5 dan tidak di tempat lain?", Komentar ini tidak konstruktif.
Alecos Papadopoulos
2
Terima kasih untuk ini. Saya setuju dengan pendirian umum Anda: (a) diskusi tentang manfaat dari pendekatan yang berbeda dan (b) diskusi tentang bagaimana kita harus membahas keduanya adalah permainan yang adil. Komentar pada individu atau bahkan kelompok berbeda biasanya tidak membantu (walaupun saya kadang-kadang juga melanggar batas ...).
Nick Cox
0

Dalam mho, regresi logit adalah pilihan yang masuk akal untuk dosis-respons. Tentu saja, Anda dapat menggunakan probit, log-log, tautan c-log-log, dan membandingkan kebaikan yang sesuai (DEV, BIC, CAIC, dll.). Tetapi regresi logit yang paling sederhana memberikan penilaian formal yang nyaman dari titik belok LD50 = -b0 / b1. Kita ingat bahwa itu adalah poin spesifik, yang untuknya kita memperoleh ketidakpastian minimum (lih., LD16, LD84, dan yang lainnya akan memiliki CI yang lebih luas, lihat "Analisis Probit" dari Finney, 1947, 1977). Dalam pengalaman saya, selalu (?) Lebih baik menggunakan logaritma dosis, dan kemudian hanya mengubah CI 95% dalam skala asli. Apa sifat kovariat lainnya dalam model? Saya menyinggung kemungkinan untuk menggunakan pendekatan multi-model ... Tentu saja Splines fleksibel, tetapi parameter formal diartikan lebih mudah!

Lihat http://www.epa.gov/ncea/bmds/bmds_training/software/overp.htm

Ivan Kshnyasev
sumber
0

Titik belok 0,5 adalah bagian kecil dari pertanyaan yang lebih besar: persamaan logistik adalah dengan konstruksi simetris. Dan di sebagian besar derivasi itu, efek yang dimodelkan memiliki alasan untuk menjadi simetris. misal ketika satu pemain menang, pemain lain kalah, atau efek yang bertanggung jawab atas kejenuhan adalah efek fisik yang sama yang bertanggung jawab untuk pertumbuhan awal, dll. Jadi, jika ada alasan mengapa asal mula perilaku X rendah adalah asal yang sama sebagai tangan kanan behavious atau karena alasan lain masalahnya simetris maka Anda memiliki pembenaran Anda.

jika tidak, mungkin maka model paling sederhana berikutnya adalah persamaan logistik umum. ini memiliki lebih banyak parameter dan Anda mungkin ingin menambahkan kendala sehingga tidak semuanya parameter gratis. ini mungkin lebih diinginkan daripada lumpur yang Anda tambahkan karena mereka menambahkan rak di mana turunan pertama berosilasi bolak-balik - hal semacam itu cenderung menciptakan titik-titik fiktif palsu dari keseimbangan lokal jika Anda mencoba untuk mengoptimalkan beberapa nilai ekspektasi dari ini distribusi. bentuk generalisasi akan memecah simetri tetapi dengan cara yang halus.

Charlie Strauss
sumber