Saya memiliki 100.000 pengamatan (9 variabel indikator dummy) dengan 1000 positif. Regresi Logistik harus bekerja dengan baik dalam kasus ini tetapi probabilitas cutoff membingungkan saya.
Dalam literatur umum, kami memilih cutoff 50% untuk memprediksi 1 dan 0. Saya tidak bisa melakukan ini karena model saya memberikan nilai maksimum ~ 1%. Jadi ambang batas bisa di 0,007 atau di suatu tempat di sekitarnya.
Saya mengerti ROC
kurva dan bagaimana area di bawah kurva dapat membantu saya memilih antara dua model LR untuk dataset yang sama. Namun, ROC tidak membantu saya memilih probabilitas cutoff optimal yang dapat digunakan untuk menguji model pada data out-of-sample.
Haruskah saya menggunakan nilai cutoff yang meminimalkan misclassification rate
? ( http://www2.sas.com/proceedings/sugi31/210-31.pdf )
Ditambahkan -> Untuk tingkat kejadian yang rendah, tingkat kesalahan klasifikasi saya dipengaruhi oleh sejumlah besar positif palsu. Meskipun angka keseluruhan terlihat bagus karena ukuran total alam semesta juga besar, tetapi model saya seharusnya tidak memiliki begitu banyak positif palsu (karena ini adalah model pengembalian investasi). 5/10 koefisien signifikan.
Jawaban:
Saya tidak setuju bahwa cutoff 50% secara inheren valid atau didukung oleh literatur. Satu-satunya kasus di mana pemotongan seperti itu dapat dibenarkan adalah dalam desain case-control di mana prevalensi hasilnya tepat 50%, tetapi bahkan kemudian pilihan akan dikenakan beberapa kondisi. Saya pikir alasan utama untuk pilihan cut-off adalah karakteristik operasi yang diinginkan dari tes diagnostik.
Cut-off dapat dipilih untuk mencapai sensitivitas atau spesifisitas yang diinginkan. Untuk contohnya, bacalah literatur perangkat medis. Sensitivitas sering diatur ke jumlah yang tetap: contohnya termasuk 80%, 90%, 95%, 99%, 99,9%, atau 99,99%. Sensitivitas / spesifisitas tradeoff harus dibandingkan dengan bahaya kesalahan Tipe I dan Tipe II. Sering kali, seperti halnya dengan pengujian statistik, kerugian dari kesalahan tipe I lebih besar sehingga kami mengendalikan risiko itu. Namun, bahaya ini jarang dapat diukur. Karena itu, saya memiliki keberatan besar terhadap metode seleksi cut-off yang bergantung pada ukuran tunggal akurasi prediksi: mereka menyampaikan, secara keliru, bahwa kerugian dapat dan telah diukur.
Masalah Anda tentang terlalu banyak positif palsu adalah contoh sebaliknya: Kesalahan tipe II mungkin lebih berbahaya. Kemudian Anda dapat menetapkan ambang untuk mencapai spesifisitas yang diinginkan, dan melaporkan sensitivitas yang dicapai pada ambang itu.
Jika Anda menemukan keduanya terlalu rendah untuk dapat diterima untuk latihan, model risiko Anda tidak berfungsi dan harus ditolak.
Sensitivitas dan spesifisitas mudah dihitung atau dilihat dari tabel pada seluruh rentang nilai cut-off yang mungkin. Masalah dengan ROC adalah bahwa ia menghilangkan informasi cut-off spesifik dari grafik. Karena itu ROC tidak relevan untuk memilih nilai cutoff.
sumber