Cara memilih probabilitas cutoff untuk peristiwa langka Regresi Logistik

Saya memiliki 100.000 pengamatan (9 variabel indikator dummy) dengan 1000 positif. Regresi Logistik harus bekerja dengan baik dalam kasus ini tetapi probabilitas cutoff membingungkan saya.

Dalam literatur umum, kami memilih cutoff 50% untuk memprediksi 1 dan 0. Saya tidak bisa melakukan ini karena model saya memberikan nilai maksimum ~ 1%. Jadi ambang batas bisa di 0,007 atau di suatu tempat di sekitarnya.

Saya mengerti ROCkurva dan bagaimana area di bawah kurva dapat membantu saya memilih antara dua model LR untuk dataset yang sama. Namun, ROC tidak membantu saya memilih probabilitas cutoff optimal yang dapat digunakan untuk menguji model pada data out-of-sample.

Haruskah saya menggunakan nilai cutoff yang meminimalkan misclassification rate? ( http://www2.sas.com/proceedings/sugi31/210-31.pdf )

Ditambahkan -> Untuk tingkat kejadian yang rendah, tingkat kesalahan klasifikasi saya dipengaruhi oleh sejumlah besar positif palsu. Meskipun angka keseluruhan terlihat bagus karena ukuran total alam semesta juga besar, tetapi model saya seharusnya tidak memiliki begitu banyak positif palsu (karena ini adalah model pengembalian investasi). 5/10 koefisien signifikan.

regression logistic classification generalized-linear-model roc Maddy
sumber

Ini adalah biaya relatif dari dua jenis kesalahan klasifikasi bersama dengan probabilitas mereka yang harus menentukan cut-off. Jika Anda hanya ingin memvalidasi model probabilitas, hitung skor AUC atau Brier ketika diterapkan ke set tes.

Scortchi

Ini mungkin jawaban yang bagus: stats.stackexchange.com/a/25398/5597

Tae-Sung Shin

Juga jawaban yang relevan di sini & di sini .

Scortchi

@ Tae-SungShin Terima kasih atas tautannya. Ini sangat membantu. Saya kira tidak ada jawaban yang pasti untuk Q saya. Model saya menderita jumlah positif palsu yang tinggi.

Maddy

@Scortchi Terima kasih. Menggunakan AUC bisa berguna jika saya membandingkan 2 model regresi logistik yang berbeda (dengan prediktor tambahan) tetapi saya tidak yakin bagaimana ini membantu saya dalam kasus saya. Ini memberi saya probabilitas keberhasilan total dari model saya tetapi tidak membantu saya memilih probabilitas cutoff.

Maddy

Jawaban:

Saya tidak setuju bahwa cutoff 50% secara inheren valid atau didukung oleh literatur. Satu-satunya kasus di mana pemotongan seperti itu dapat dibenarkan adalah dalam desain case-control di mana prevalensi hasilnya tepat 50%, tetapi bahkan kemudian pilihan akan dikenakan beberapa kondisi. Saya pikir alasan utama untuk pilihan cut-off adalah karakteristik operasi yang diinginkan dari tes diagnostik.

Cut-off dapat dipilih untuk mencapai sensitivitas atau spesifisitas yang diinginkan. Untuk contohnya, bacalah literatur perangkat medis. Sensitivitas sering diatur ke jumlah yang tetap: contohnya termasuk 80%, 90%, 95%, 99%, 99,9%, atau 99,99%. Sensitivitas / spesifisitas tradeoff harus dibandingkan dengan bahaya kesalahan Tipe I dan Tipe II. Sering kali, seperti halnya dengan pengujian statistik, kerugian dari kesalahan tipe I lebih besar sehingga kami mengendalikan risiko itu. Namun, bahaya ini jarang dapat diukur. Karena itu, saya memiliki keberatan besar terhadap metode seleksi cut-off yang bergantung pada ukuran tunggal akurasi prediksi: mereka menyampaikan, secara keliru, bahwa kerugian dapat dan telah diukur.

Masalah Anda tentang terlalu banyak positif palsu adalah contoh sebaliknya: Kesalahan tipe II mungkin lebih berbahaya. Kemudian Anda dapat menetapkan ambang untuk mencapai spesifisitas yang diinginkan, dan melaporkan sensitivitas yang dicapai pada ambang itu.

Jika Anda menemukan keduanya terlalu rendah untuk dapat diterima untuk latihan, model risiko Anda tidak berfungsi dan harus ditolak.

Sensitivitas dan spesifisitas mudah dihitung atau dilihat dari tabel pada seluruh rentang nilai cut-off yang mungkin. Masalah dengan ROC adalah bahwa ia menghilangkan informasi cut-off spesifik dari grafik. Karena itu ROC tidak relevan untuk memilih nilai cutoff.

AdamO
sumber