Mengapa regresi logistik menjadi tidak stabil ketika kelas dipisahkan dengan baik? Apa yang dimaksud dengan kelas yang dipisahkan dengan baik? Saya akan sangat menghargai jika seseorang dapat menjelaskan dengan sebuah contoh.
r
regression
logistic
separation
Jane Dow
sumber
sumber
Jawaban:
Tidak benar bahwa regresi logistik itu sendiri menjadi tidak stabil ketika ada pemisahan. Pemisahan berarti bahwa ada beberapa variabel yang merupakan prediktor yang sangat baik, yang baik, atau, pemisahan mungkin merupakan artefak dari terlalu sedikit pengamatan / terlalu banyak variabel. Jika itu masalahnya, solusinya mungkin untuk mendapatkan lebih banyak data. Tetapi pemisahan itu sendiri hanyalah gejala, dan bukan masalah.
Jadi ada kasus yang sangat berbeda untuk dirawat. Pertama, apa tujuan analisis? Jika hasil akhir dari analisis adalah beberapa klasifikasi kasus, pemisahan tidak ada masalah sama sekali, itu berarti ada variabel yang sangat baik memberikan klasifikasi yang sangat baik. Tetapi jika tujuannya adalah estimasi risiko, kita memerlukan estimasi parameter, dan dengan pemisahan estimasi biasa (kemungkinan maksimum) tidak ada. Jadi kita harus mengubah metode estimasi, mungkin. Ada beberapa proposal dalam literatur, saya akan kembali ke sana.
Lalu ada (seperti yang dikatakan di atas) dua kemungkinan penyebab pemisahan. Mungkin ada pemisahan dalam populasi penuh, atau pemisahan mungkin disebabkan oleh beberapa kasus yang diamati / terlalu banyak variabel.
Apa yang rusak dengan pemisahan, adalah prosedur estimasi kemungkinan maksimum. Estimasi parameter mle (atau setidaknya beberapa di antaranya) menjadi tak terbatas. Saya mengatakan dalam versi pertama dari jawaban ini bahwa itu dapat diselesaikan dengan mudah, mungkin dengan bootstrap, tetapi itu tidak berhasil, karena akan ada pemisahan di setiap bootstrap resample, setidaknya dengan prosedur bootstrap case yang biasa. Tetapi regresi logistik masih merupakan model yang valid, tetapi kami membutuhkan beberapa prosedur estimasi lainnya. Beberapa proposal telah:
Jika Anda menggunakan R, ada paket tentang CRAN,
SafeBinaryRegression
yang membantu mendiagnosis masalah pemisahan, menggunakan metode pengoptimalan matematis untuk memastikan apakah ada pemisahan atau quasiseparation! Berikut ini saya akan memberikan contoh simulasi menggunakan paket ini, danelrm
paket untuk perkiraan regresi logistik bersyarat.Pertama, contoh sederhana dengan
safeBinaryRegression
paket. Paket ini hanya mendefinisikan ulangglm
fungsi, membebani dengan uji pemisahan, menggunakan metode pemrograman linier. Jika mendeteksi pemisahan, ia keluar dengan kondisi kesalahan, menyatakan bahwa mle tidak ada. Kalau tidak, itu hanya menjalankanglm
fungsi biasastats
. Contohnya adalah dari halaman bantuannya:Output dari menjalankannya:
Sekarang kita mensimulasikan dari model yang dapat didekati dengan cermat oleh model logistik, kecuali bahwa di atas cutoff tertentu probabilitas peristiwa adalah tepat 1,0. Pikirkan masalah bioassay, tapi racunnya selalu terbunuh:
Saat menjalankan kode ini, kami memperkirakan probabilitas pemisahan sebesar 0,759. Jalankan kodenya sendiri, cepat!
Kemudian kami memperluas kode ini untuk mencoba prosedur estimasi yang berbeda, meredam dan memperkirakan regresi logistik bersyarat dari elrm. Menjalankan simulasi ini memakan waktu sekitar 40 menit di komputer saya.
Sekarang kami ingin memplot hasil, tetapi sebelum itu, perhatikan bahwa SEMUA perkiraan bersyarat sama! Itu benar-benar aneh dan perlu penjelasan ... Nilai umum adalah 0,9523975. Tapi setidaknya kami memperoleh estimasi terbatas, dengan interval kepercayaan yang berisi nilai sebenarnya (tidak ditampilkan di sini). Jadi saya hanya akan menunjukkan histogram dari estimasi saya dalam kasus-kasus tanpa pemisahan:
[
Yang luar biasa adalah bahwa semua perkiraan lebih rendah dari nilai sebenarnya 1.5. Itu bisa ada hubungannya dengan fakta bahwa kita disimulasikan dari model yang dimodifikasi, perlu diselidiki.
sumber
Ada jawaban yang bagus di sini dari @ sean501 dan @kjetilbhalvorsen. Anda meminta contoh. Perhatikan gambar di bawah ini. Anda mungkin akan menemukan beberapa situasi di mana proses menghasilkan data seperti itu digambarkan dalam panel A . Jika demikian, sangat mungkin bahwa data benar-benar Anda mengumpulkan terlihat seperti di panel B . Sekarang, ketika Anda menggunakan data untuk membangun model statistik, idenya adalah untuk memulihkan proses pembuatan data yang benar atau setidaknya muncul dengan perkiraan yang cukup dekat. Dengan demikian, pertanyaannya adalah, akankah menyesuaikan regresi logistik dengan data dalam B menghasilkan model yang mendekati garis biru dalam A ? Jika Anda melihat panel C, Anda dapat melihat bahwa garis abu-abu lebih baik mendekati data daripada fungsi sebenarnya, jadi dalam mencari yang paling cocok, regresi logistik akan 'lebih suka' untuk mengembalikan garis abu-abu daripada yang biru. Namun, tidak berhenti di situ. Melihat panel D, garis hitam mendekati data yang lebih baik daripada yang abu-abu — pada kenyataannya, itu adalah yang paling cocok yang mungkin terjadi. Jadi itu adalah garis model regresi logistik mengejar. Ini sesuai dengan intersepsi infinity negatif dan kemiringan infinity. Itu, tentu saja, sangat jauh dari kebenaran yang Anda harapkan akan pulih. Pemisahan lengkap juga dapat menyebabkan masalah dengan perhitungan nilai-p untuk variabel Anda yang datang standar dengan output regresi logistik (penjelasannya ada sedikit berbeda dan lebih rumit). Selain itu, mencoba menggabungkan kecocokan di sini dengan upaya lain, misalnya dengan meta-analisis, hanya akan membuat temuan lainnya kurang akurat.
sumber
Artinya ada hyperplane sehingga di satu sisi ada semua poin positif dan di sisi lain semua negatif. Solusi kemungkinan maksimum kemudian datar 1 di satu sisi dan datar 0 di sisi lain, yang 'dicapai' dengan fungsi logistik dengan memiliki koefisien pada infinity.
sumber
Apa yang Anda sebut "pemisahan" (bukan 'pemisahan') mencakup dua situasi berbeda yang akhirnya menyebabkan masalah yang sama - yang saya tidak akan sebut, bagaimanapun, masalah "ketidakstabilan" seperti yang Anda lakukan.
Sebuah ilustrasi: Survival on the Titanic
Itu akan menjadi kasus jika semua penumpang kelas satu di Titanic selamat dari puing-puing, dan tidak ada penumpang kelas dua yang selamat.
Apa yang Anda sebut "kelas yang dipisahkan dengan baik" adalah situasi di mana variabel hasil binerD V (mis. survival of the Titanic ) dapat sepenuhnya atau semu sepenuhnya dipetakan ke prediktorSV (mis. keanggotaan kelas penumpang; SV tidak perlu biner seperti dalam contoh saya).
Mengapa regresi logistik "tidak stabil" dalam kasus ini?
Ini dijelaskan dengan baik dalam Rainey 2016 dan Zorn 2005 .
Di bawah pemisahan lengkap , model logistik Anda akan mencari kurva logistik yang menetapkan, misalnya, semua probabilitasD V untuk 1 kapan SV= 1 , and all probabilities to DV to 0 when SV=0 .
This corresponds to the aforementioned situation where only and all first-class passengers of the Titanic survive, withSV=1 indicating first-class passenger membership.
This is problematic because the logistic curve lies strictly between0 and 1 , which means that, to model the observed data, the maximisation is going to push some of its terms towards infinity, in order, if you like, to make SV "infinitely" predictive of DV .
The same problem arises under quasi-complete separation, as the logistic curve will still need to assign only values of either0 or 1 to DV in one of two cases, SV=0 or SV=1 .
In both cases, the likelihood function of your model will be unable to find a maximum likelihood estimate: it will only find an approximation of that value by approaching it asymptotically.
What you are calling "instability" is the fact that, in cases of complete or quasi-complete separation, there is no finite likelihood for the logistic model to reach. I would not use that term, however: the likelihood function is, in fact, being pretty "stable" (monotonic) in its assignment of coefficient values towards infinity.
Note: my example is fictional. Survival on the Titanic did not boil down just to passenger class membership. See Hall (1986).
sumber