Orang-orang yang bekerja dengan regresi logistik akrab dengan masalah pemisahan sempurna: jika Anda memiliki nilai-nilai spesifik variabel yang terkait dengan hanya satu dari dua hasil (katakanlah biner sedemikian rupa sehingga semua pengamatan dengan memiliki hasil = 1 ), kemungkinan meledak, dan perkiraan kemungkinan maksimum habis hingga tak terbatas. dalam R mungkin atau mungkin tidak menangani itu dengan sangat baik, karena pesan kesalahan prediksi sempurna dapat muncul untuk alasan selain prediksi / pemisahan sempurna. di Stata mengidentifikasi variabel dan nilai bermasalah seperti itu, dan membuangnya dari analisis.glm
logit
Pertanyaan saya berbeda dari apa yang harus dilakukan jika Anda memiliki pemisahan yang sempurna. Itu bisa saya tangani dengan pengodean ulang variabel saya (mereka semua kategoris, jadi saya bisa menggabungkan kategori), atau dengan versi Firth dari regresi logistik jika saya ingin menjadi mewah.
Sebagai gantinya, saya bertanya-tanya apa cara umum menggambarkan hal ini. Saya memiliki satu set data dengan sekitar 100 pasien dengan sekitar 50% proporsi "positif", dan beberapa kategori variabel demografis menghasilkan prediksi yang sempurna ini. Anggap saja semua 7 orang bermata hijau memiliki hasil "positif". Ini mungkin kekhasan sampel kecil yang akan hilang jika saya memiliki ukuran sampel 1000 dan 70 orang bermata hijau, tetapi mungkin secara klinis bermakna, karena dalam sampel yang lebih besar saya bisa memiliki 60 dari 70 orang bermata hijau yang akan memiliki hasil "positif" dengan rasio odds tinggi.
Jadi menyenangkan untuk mengatakan bahwa saya menggunakan Bayesian atau metode penyusutan lainnya, tetapi dalam menggambarkan bagaimana saya sampai di sana, saya harus mengakui bahwa saya memiliki prediksi / pemisahan yang sempurna, dan harus menemukan teknik yang lebih canggih untuk mendapatkan hasil di semua. Apa bahasa yang baik untuk digunakan di sini?
sumber
Jawaban:
Saat melakukan aktivitas penggalian pada pertanyaan tanpa jawaban, saya menemukan ini sangat masuk akal, yang, saya kira, sekarang OP telah menemukan jawaban.
Tetapi saya menyadari bahwa saya memiliki berbagai pertanyaan saya sendiri mengenai masalah pemisahan yang sempurna dalam regresi logistik, dan pencarian (cepat) dalam literatur, tampaknya tidak menjawabnya. Jadi saya memutuskan untuk memulai proyek penelitian kecil saya sendiri (mungkin menciptakan kembali roda), dan dengan jawaban ini saya ingin berbagi beberapa hasil awal. Saya percaya hasil ini berkontribusi terhadap pemahaman apakah masalah pemisahan sempurna adalah murni "teknis", atau apakah itu dapat diberikan deskripsi / penjelasan yang lebih intuitif.
Perhatian pertama saya adalah untuk memahami fenomena dalam hal algoritmik, daripada teori umum di belakangnya: di bawah kondisi mana pendekatan estimasi kemungkinan maksimum akan "rusak" jika diumpankan dengan sampel data yang berisi regressor yang mana fenomena sempurna pemisahan ada?
Hasil awal (teoretis dan disimulasikan) menunjukkan bahwa:0
1) Penting apakah istilah konstan dimasukkan dalam spesifikasi logit.
2) Itu penting apakah regressor yang dimaksud adalah dikotomis (dalam sampel), atau tidak.
3) Jika dikotomis, mungkin penting apakah itu mengambil nilai atau tidak. 4) Itu penting apakah ada regresi lain dalam spesifikasi atau tidak. 5) Penting bagaimana 4 masalah di atas digabungkan.
Sekarang saya akan menyajikan satu set kondisi yang cukup untuk pemisahan sempurna untuk membuat MLE mogok. Ini tidak terkait dengan apakah berbagai perangkat lunak statistik memberikan peringatan terhadap fenomena -mereka dapat melakukannya dengan memindai sampel data sebelum mencoba untuk melakukan estimasi kemungkinan maksimum. Saya prihatin dengan kasus-kasus di mana estimasi kemungkinan maksimum akan dimulai -dan kapan akan rusak dalam proses.
Asumsikan model regresi logistik pilihan biner "biasa"
Log-kemungkinan untuk sampel ukuran adalahn
MLE akan ditemukan dengan menetapkan turunannya sama dengan nol. Khususnya yang kita inginkan
Persamaan pertama berasal dari mengambil turunan sehubungan dengan istilah konstan, 2 dari mengambil turunan terhadap .X
Asumsikan sekarang bahwa dalam semua kasus di mana kita memiliki , dan tidak pernah mengambil nilai ketika . Ini adalah fenomena pemisahan total, atau "prediksi sempurna": jika kita mengamati kita tahu bahwa . Jika kita mengamati kita tahu bahwa . Ini berlaku terlepas dari apakah, secara teori atau dalam sampel , adalah diskrit atau kontinu, dikotomis atau tidak. Tetapi juga, ini adalah fenomena khusus sampel - kami tidak berpendapat bahwa itu akan menguasai populasi. Tetapi sampel spesifik adalah apa yang kita miliki untuk memberi makan MLE.y1=1 xi=ak xi ak yi=0 xi=ak yi=1 xi≠ak yi=0 X
Sekarang tunjukkan frekuensi dari olehyi=1 ny
Kami kemudian dapat menulis kembali eq sebagai(1)
Beralih ke persamaan. kita miliki(2)
menggunakan kita memiliki(3)
dan menggunakan kita dapatkan(4)
Jadi: jika spesifikasinya berisi istilah yang konstan dan ada pemisahan yang sempurna sehubungan dengan regressor , MLE akan berusaha untuk memuaskan, antara lain, eq juga.X (5)
Tetapi perhatikan, bahwa penjumlahannya lebih dari sub-sampel di mana di mana dengan asumsi. Ini menyiratkan hal berikut: 1) jika adalah dikotomis dalam sampel, maka untuk semua dalam penjumlahan dalam . 2) Jika tidak dikotomis dalam sampel, tetapi adalah nilai minimum atau maksimum dalam sampel, maka sekali lagi untuk semua dalam penjumlahan dalam .yi=0 xi≠ak
X (ak−xi)≠0 i (5)
X ak (ak−xi)≠0 i (5)
Dalam dua kasus ini, dan karena juga non-negatif oleh konstruksi, satu-satunya cara yang eq. bisa dipenuhi adalah ketika untuk semua dalam penjumlahan. TapiΛi (5) Λi=0 i
dan jadi satu-satunya cara dapat menjadi sama dengan , adalah jika perkiraan parameter sedemikian rupa sehingga . Dan karena linear dalam parameter, ini menyiratkan bahwa setidaknya satu dari estimasi parameter harus "tak terhingga": ini adalah apa artinya bagi MLE untuk "memecah": untuk tidak menghasilkan estimasi yang bernilai terbatas. Jadi kasus 1) dan 2) adalah kondisi yang cukup untuk rincian prosedur MLE.Λi 0 g(β0,xi,zi)→−∞ g()
Tapi mempertimbangkan sekarang kasus di mana tidak dikotomis, dan adalah tidak minimum, atau nilai maksimum dalam sampel. Kami masih memiliki pemisahan total, "prediksi sempurna", tetapi sekarang, dalam persamaan. beberapa istilah akan positif dan beberapa akan negatif. Ini berarti bahwa ada kemungkinan bahwa MLE akan dapat memenuhi persamaan. menghasilkan estimasi terbatas untuk semua parameter. Dan hasil simulasi mengkonfirmasi bahwa ini benar.X ak (5) (ak−xi) (5)
Saya tidak mengatakan bahwa sampel seperti itu tidak menciptakan konsekuensi yang tidak diinginkan untuk properti estimator dll: Saya hanya mencatat bahwa dalam kasus seperti itu, algoritma estimasi akan berjalan seperti biasa.
Selain itu, hasil simulasi menunjukkan bahwa jika tidak ada istilah konstan dalam spesifikasi , tidak dichotomous tetapi adalah nilai ekstrem, dan ada regresi lain yang hadir, sekali lagi MLE akan berjalan - menunjukkan bahwa ada istilah konstan (yang konsekuensi teoritis yang kami gunakan dalam hasil sebelumnya, yaitu persyaratan bagi MLE untuk memenuhi persamaan ), adalah penting.X ak (1)
sumber
glm