Bagaimana menggambarkan dan menyajikan masalah perpisahan yang sempurna?

8

Orang-orang yang bekerja dengan regresi logistik akrab dengan masalah pemisahan sempurna: jika Anda memiliki nilai-nilai spesifik variabel yang terkait dengan hanya satu dari dua hasil (katakanlah biner sedemikian rupa sehingga semua pengamatan dengan memiliki hasil = 1 ), kemungkinan meledak, dan perkiraan kemungkinan maksimum habis hingga tak terbatas. dalam R mungkin atau mungkin tidak menangani itu dengan sangat baik, karena pesan kesalahan prediksi sempurna dapat muncul untuk alasan selain prediksi / pemisahan sempurna. di Stata mengidentifikasi variabel dan nilai bermasalah seperti itu, dan membuangnya dari analisis.xx=1glmlogit

Pertanyaan saya berbeda dari apa yang harus dilakukan jika Anda memiliki pemisahan yang sempurna. Itu bisa saya tangani dengan pengodean ulang variabel saya (mereka semua kategoris, jadi saya bisa menggabungkan kategori), atau dengan versi Firth dari regresi logistik jika saya ingin menjadi mewah.

Sebagai gantinya, saya bertanya-tanya apa cara umum menggambarkan hal ini. Saya memiliki satu set data dengan sekitar 100 pasien dengan sekitar 50% proporsi "positif", dan beberapa kategori variabel demografis menghasilkan prediksi yang sempurna ini. Anggap saja semua 7 orang bermata hijau memiliki hasil "positif". Ini mungkin kekhasan sampel kecil yang akan hilang jika saya memiliki ukuran sampel 1000 dan 70 orang bermata hijau, tetapi mungkin secara klinis bermakna, karena dalam sampel yang lebih besar saya bisa memiliki 60 dari 70 orang bermata hijau yang akan memiliki hasil "positif" dengan rasio odds tinggi.

Jadi menyenangkan untuk mengatakan bahwa saya menggunakan Bayesian atau metode penyusutan lainnya, tetapi dalam menggambarkan bagaimana saya sampai di sana, saya harus mengakui bahwa saya memiliki prediksi / pemisahan yang sempurna, dan harus menemukan teknik yang lebih canggih untuk mendapatkan hasil di semua. Apa bahasa yang baik untuk digunakan di sini?

Tugas
sumber
Lihat di sini untuk satu sudut pandang: stats.stackexchange.com/questions/254124/...
kjetil b halvorsen

Jawaban:

3

Saat melakukan aktivitas penggalian pada pertanyaan tanpa jawaban, saya menemukan ini sangat masuk akal, yang, saya kira, sekarang OP telah menemukan jawaban.
Tetapi saya menyadari bahwa saya memiliki berbagai pertanyaan saya sendiri mengenai masalah pemisahan yang sempurna dalam regresi logistik, dan pencarian (cepat) dalam literatur, tampaknya tidak menjawabnya. Jadi saya memutuskan untuk memulai proyek penelitian kecil saya sendiri (mungkin menciptakan kembali roda), dan dengan jawaban ini saya ingin berbagi beberapa hasil awal. Saya percaya hasil ini berkontribusi terhadap pemahaman apakah masalah pemisahan sempurna adalah murni "teknis", atau apakah itu dapat diberikan deskripsi / penjelasan yang lebih intuitif.

Perhatian pertama saya adalah untuk memahami fenomena dalam hal algoritmik, daripada teori umum di belakangnya: di bawah kondisi mana pendekatan estimasi kemungkinan maksimum akan "rusak" jika diumpankan dengan sampel data yang berisi regressor yang mana fenomena sempurna pemisahan ada?

Hasil awal (teoretis dan disimulasikan) menunjukkan bahwa:
1) Penting apakah istilah konstan dimasukkan dalam spesifikasi logit.
2) Itu penting apakah regressor yang dimaksud adalah dikotomis (dalam sampel), atau tidak.
3) Jika dikotomis, mungkin penting apakah itu mengambil nilai atau tidak. 4) Itu penting apakah ada regresi lain dalam spesifikasi atau tidak. 5) Penting bagaimana 4 masalah di atas digabungkan. 0

Sekarang saya akan menyajikan satu set kondisi yang cukup untuk pemisahan sempurna untuk membuat MLE mogok. Ini tidak terkait dengan apakah berbagai perangkat lunak statistik memberikan peringatan terhadap fenomena -mereka dapat melakukannya dengan memindai sampel data sebelum mencoba untuk melakukan estimasi kemungkinan maksimum. Saya prihatin dengan kasus-kasus di mana estimasi kemungkinan maksimum akan dimulai -dan kapan akan rusak dalam proses.

Asumsikan model regresi logistik pilihan biner "biasa"

P(Yiβ0,Xi,zi)=Λ(g(β0,xi,zi)),g(β0,xi,zi)=β0+β1xi+ziγ

X adalah regressor dengan pemisahan sempurna, sedangkan adalah kumpulan dari regressor lain yang tidak ditandai oleh pemisahan sempurna. JugaZ

Λ(g(β0,xi,zi))=11+eg(β0,xi,zi)Λi

Log-kemungkinan untuk sampel ukuran adalahn

lnL=i=1n[yiln(Λi)+(1yi)ln(1Λi)]

MLE akan ditemukan dengan menetapkan turunannya sama dengan nol. Khususnya yang kita inginkan

(1)i=1n(yiΛi)=0

(2)i=1n(yiΛi)xi=0

Persamaan pertama berasal dari mengambil turunan sehubungan dengan istilah konstan, 2 dari mengambil turunan terhadap .X

Asumsikan sekarang bahwa dalam semua kasus di mana kita memiliki , dan tidak pernah mengambil nilai ketika . Ini adalah fenomena pemisahan total, atau "prediksi sempurna": jika kita mengamati kita tahu bahwa . Jika kita mengamati kita tahu bahwa . Ini berlaku terlepas dari apakah, secara teori atau dalam sampel , adalah diskrit atau kontinu, dikotomis atau tidak. Tetapi juga, ini adalah fenomena khusus sampel - kami tidak berpendapat bahwa itu akan menguasai populasi. Tetapi sampel spesifik adalah apa yang kita miliki untuk memberi makan MLE.y1=1xi=akxiakyi=0xi=akyi=1xiakyi=0X

Sekarang tunjukkan frekuensi dari olehyi=1ny

(3)nyi=1nyi=yi=1yi

Kami kemudian dapat menulis kembali eq sebagai(1)

(4)ny=i=1nΛi=yi=1Λi+yi=0Λinyyi=1Λi=yi=0Λi

Beralih ke persamaan. kita miliki(2)

i=1nyixii=1nΛixi=0yi=1yiak+yi=0yixiyi=1Λiakyi=0Λixi=0

menggunakan kita memiliki (3)

nyak+0akyi=1Λiyi=0Λixi=0

ak(nyyi=1Λi)yi=0Λixi=0

dan menggunakan kita dapatkan(4)

(5)akyi=0Λixiyi=0Λixi=0yi=0(akxi)Λi=0

Jadi: jika spesifikasinya berisi istilah yang konstan dan ada pemisahan yang sempurna sehubungan dengan regressor , MLE akan berusaha untuk memuaskan, antara lain, eq juga. X(5)

Tetapi perhatikan, bahwa penjumlahannya lebih dari sub-sampel di mana di mana dengan asumsi. Ini menyiratkan hal berikut: 1) jika adalah dikotomis dalam sampel, maka untuk semua dalam penjumlahan dalam . 2) Jika tidak dikotomis dalam sampel, tetapi adalah nilai minimum atau maksimum dalam sampel, maka sekali lagi untuk semua dalam penjumlahan dalam . yi=0xiak
X(akxi)0i(5)
Xak(akxi)0i(5)

Dalam dua kasus ini, dan karena juga non-negatif oleh konstruksi, satu-satunya cara yang eq. bisa dipenuhi adalah ketika untuk semua dalam penjumlahan. TapiΛi(5)Λi=0i

Λi=11+eg(β0,xi,zi)

dan jadi satu-satunya cara dapat menjadi sama dengan , adalah jika perkiraan parameter sedemikian rupa sehingga . Dan karena linear dalam parameter, ini menyiratkan bahwa setidaknya satu dari estimasi parameter harus "tak terhingga": ini adalah apa artinya bagi MLE untuk "memecah": untuk tidak menghasilkan estimasi yang bernilai terbatas. Jadi kasus 1) dan 2) adalah kondisi yang cukup untuk rincian prosedur MLE.Λi0g(β0,xi,zi)g()

Tapi mempertimbangkan sekarang kasus di mana tidak dikotomis, dan adalah tidak minimum, atau nilai maksimum dalam sampel. Kami masih memiliki pemisahan total, "prediksi sempurna", tetapi sekarang, dalam persamaan. beberapa istilah akan positif dan beberapa akan negatif. Ini berarti bahwa ada kemungkinan bahwa MLE akan dapat memenuhi persamaan. menghasilkan estimasi terbatas untuk semua parameter. Dan hasil simulasi mengkonfirmasi bahwa ini benar. Xak(5)(akxi)(5)

Saya tidak mengatakan bahwa sampel seperti itu tidak menciptakan konsekuensi yang tidak diinginkan untuk properti estimator dll: Saya hanya mencatat bahwa dalam kasus seperti itu, algoritma estimasi akan berjalan seperti biasa.

Selain itu, hasil simulasi menunjukkan bahwa jika tidak ada istilah konstan dalam spesifikasi , tidak dichotomous tetapi adalah nilai ekstrem, dan ada regresi lain yang hadir, sekali lagi MLE akan berjalan - menunjukkan bahwa ada istilah konstan (yang konsekuensi teoritis yang kami gunakan dalam hasil sebelumnya, yaitu persyaratan bagi MLE untuk memenuhi persamaan ), adalah penting.Xak(1)

Alecos Papadopoulos
sumber
Tidak, belum, jadi pertanyaannya terbuka. Namun, saya harus menghentikan Anda tepat di persamaan normal (1) dan (2). Masalah praktis pemisahan sempurna adalah bahwa pengoptimal kemungkinan ingin mengirim ke , dan akibatnya probabilitas yang diprediksi menjadi nol / satu. Anda tidak lagi berada di bagian dalam ruang parameter, sehingga persamaan normal mungkin tidak berfungsi. Juga, untuk variabel kontinu, saya akan mencirikan pemisahan sempurna sebagai menyiratkan dan menyiratkan , katakanlah, daripada persamaan yang tepat untuk nilai yang diberikan. g()±xi>aYi=1xiaYi=0
Tugas
Persamaan normal adalah apa yang akan coba dipenuhi oleh MLE - dan untuk melakukannya, ia dapat mengirim logit hingga tak terhingga, tentu saja. Apa yang Anda maksud dengan "persamaan normal mungkin tidak berfungsi?" Saya tidak yakin saya mengerti. Mengenai variabel kontinu, ya karakterisasi pemisahan sempurna Anda pada dasarnya sesuai dengan apa yang saya temukan, yaitu bahwa nilai " " ekstrem dalam sampel, bagi MLE untuk dipecah. Ketidaksamaan Anda pada dasarnya menggambarkan hal yang sama. ak
Alecos Papadopoulos
ML tidak berfungsi saat kondisi keteraturan dilanggar. Lihat misalnya ini .
Tugas
1
Saya setuju dengan kamu. Posting saya tidak berdebat sebaliknya. Apa yang saya coba lakukan adalah untuk "memprediksi" ketika implementasi sebenarnya dari algoritma MLE melalui upaya untuk memenuhi kondisi yang biasa, secara numerik akan rusak di bawah pemisahan sempurna, dan ketika itu tidak. Tetapi posting saya tidak membahas kegunaan / kebermaknaan estimasi aktual yang akan kami peroleh, dalam kasus di mana algoritma MLE memang memberikan hasil, dan saya telah menulis ini dengan jelas di posting saya. Saya melihat contoh saya sebagai peringatan: "waspadalah-bahkan jika ada pemisahan sempurna, jangan percaya algoritma MLE untuk memberitahu Anda".
Alecos Papadopoulos
BAIK. Dengan mengingat hal itu, ini adalah analisis yang hebat, menyeluruh, dan kontribusi berharga bagi pemahaman kita tentang pemisahan yang sempurna. Tapi sebenarnya itu bukan jawaban untuk pertanyaan saya yang melaporkan fenomena (dan Anda tahu itu dalam jawaban Anda juga). Bolehkah saya juga menyarankan agar Anda sedikit memperluas jawaban dan menjelaskan apa yang terjadi dengan aritmatika presisi terbatas - (5) akan dianggap "cukup kecil" (mis., < atau sesuatu seperti itu) dalam nilai absolut , dan perangkat lunak dapat dengan senang hati melontarkan nilai-nilai non-sensis besar (seperti dalam R, setahu saya)? 108glm
Tugas