Saya ingin mempelajari peristiwa langka dalam populasi terbatas. Karena saya tidak yakin tentang strategi mana yang paling cocok, saya akan menghargai tips dan referensi yang berkaitan dengan masalah ini, meskipun saya sangat menyadari bahwa strategi ini telah banyak dibahas. Aku benar-benar tidak tahu harus mulai dari mana.
Masalah saya adalah ilmu politik dan saya memiliki populasi terbatas yang terdiri dari 515.843 catatan. Mereka terkait dengan variabel dependen biner dengan 513.334 "0" dan 2.509 "1". Saya dapat koin "1" saya sebagai peristiwa langka karena hanya menyumbang 0,49% dari populasi.
Saya memiliki satu set sekitar 10 variabel independen yang ingin saya bangun model dengan menjelaskan keberadaan "1". Seperti banyak dari kita, saya membaca artikel King & Zeng 2001 tentang koreksi peristiwa langka. Pendekatan mereka adalah menggunakan desain case-control untuk mengurangi jumlah "0", kemudian menerapkan koreksi pada intersep.
Namun, posting ini mengatakan bahwa argumen King & Zeng tidak diperlukan jika saya sudah mengumpulkan data saya di seluruh populasi, yang merupakan kasus saya. Oleh karena itu, saya harus menggunakan model logit klasik. Sayangnya bagi saya, meskipun saya mendapatkan koefisien signifikan yang baik, model saya sama sekali tidak berguna dalam hal prediksi (gagal memprediksi 99,48% dari "1" saya).
Setelah membaca artikel King & Zeng, saya ingin mencoba desain case-control dan hanya memilih 10% dari "0" dengan semua "1". Dengan koefisien yang hampir sama, model ini mampu memprediksi hampir sepertiga dari "1" ketika diterapkan pada populasi penuh. Tentu saja, ada banyak false-positive.
Jadi saya punya tiga pertanyaan yang ingin saya tanyakan:
1) Jika pendekatan King & Zeng berprasangka ketika Anda memiliki pengetahuan penuh tentang populasi, mengapa mereka menggunakan situasi di mana mereka tahu populasi dalam artikel mereka untuk membuktikan pendapat mereka?
2) Jika saya memiliki koefisien yang baik dan signifikan dalam regresi logit, tetapi daya prediksi yang sangat buruk, apakah itu berarti bahwa variasi yang dijelaskan oleh variabel ini tidak ada artinya?
3) Apa pendekatan terbaik untuk menghadapi peristiwa langka? Saya membaca tentang model relogit King, pendekatan Firth, logit yang tepat, dll. Saya harus akui bahwa saya tersesat di antara semua solusi ini.
sumber
Jawaban:
(1) Jika Anda memiliki "pengetahuan penuh tentang suatu populasi" mengapa Anda membutuhkan model untuk membuat prediksi? Saya menduga Anda secara implisit menganggap mereka sebagai sampel dari populasi super hipotetis — lihat di sini & di sini . Jadi, haruskah Anda membuang pengamatan dari sampel Anda? Tidak. King & Zeng tidak menganjurkan ini:
(2) Masalah utama di sini adalah penggunaan aturan penilaian yang tidak tepat untuk menilai kinerja prediktif model Anda. Misalkan model Anda benar , sehingga untuk setiap individu yang Anda tahu kemungkinan peristiwa langka — katakanlah digigit ular pada bulan berikutnya. Apa lagi yang Anda pelajari dengan menetapkan cut-off probabilitas yang sewenang-wenang & memprediksi bahwa orang-orang di atasnya akan digigit & orang-orang di bawahnya tidak akan? Jika Anda membuat cut-off 50% Anda kemungkinan akan memprediksi tidak ada yang akan digigit. Jika Anda membuatnya cukup rendah, Anda dapat memprediksi semua orang akan digigit. Terus? Penerapan model yang masuk akal membutuhkan diskriminasi — siapa yang harus diberikan satu-satunya botol anti racun? —Atau kalibrasi — bagi siapa pantas membeli sepatu bot, mengingat biayanya relatif dibandingkan dengan gigitan ular ?.
sumber
Pada satu tingkat, saya bertanya-tanya berapa banyak ketidaktepatan model Anda hanya karena proses Anda sulit untuk diprediksi, dan variabel Anda tidak cukup untuk melakukannya. Apakah ada variabel lain yang mungkin menjelaskan lebih banyak?
Di sisi lain, jika Anda dapat melemparkan variabel dependen Anda sebagai masalah hitungan / ordinal (seperti korban dari konflik, atau durasi konflik), Anda dapat mencoba regresi hitungan nol atau model rintangan. Ini mungkin memiliki masalah definisi buruk yang sama antara 0 dan 1, tetapi beberapa konflik yang berkorelasi dengan variabel Anda bisa menjauh dari nol.
sumber
Selain mengurangi populasi mayoritas, Anda juga dapat melakukan oversample terhadap peristiwa langka, tetapi perlu diketahui bahwa melakukan oversampling pada kelas minoritas dapat menyebabkan overfitting, jadi periksalah dengan cermat.
Makalah ini dapat memberikan informasi lebih lanjut tentang itu: Yap, Bee Wah, et al. "Sebuah Aplikasi Oversampling, Undersampling, Bagging, dan Boosting dalam Menangani Data Ketidakseimbangan." pdf
Juga, saya ingin menghubungkan pertanyaan ini karena membahas masalah yang sama juga
sumber
Pertanyaan Anda bermuara pada bagaimana saya bisa membujuk regresi logit untuk menemukan solusi yang lebih baik. Tetapi apakah Anda bahkan yakin bahwa ada solusi yang lebih baik? Dengan hanya sepuluh parameter, apakah Anda dapat menemukan solusi yang lebih baik?
Saya akan mencoba model yang lebih rumit dengan misalnya menambahkan istilah produk pada input, atau menambahkan lapisan max-out di sisi target (sehingga Anda pada dasarnya memiliki beberapa regresi logistik untuk berbagai subset target 1s yang ditemukan secara adaptif).
sumber
Pertanyaan bagus
Menurut saya, masalahnya adalah apakah Anda mencoba melakukan inferensi (apakah Anda tertarik dengan apa yang dikatakan koefisien Anda?) Atau prediksi. Jika yang terakhir, maka Anda dapat meminjam model dari Machine Learning (BART, randomForest, bouncing tree, dll.) Yang hampir pasti akan melakukan pekerjaan yang lebih baik pada prediksi daripada logit. Jika Anda melakukan inferensi, dan Anda memiliki begitu banyak titik data, maka coba sertakan istilah interaksi yang masuk akal, istilah polinomial, dll. Atau, Anda dapat melakukan inferensi dari BART, seperti dalam makalah ini:
http://artsandsciences.sc.edu/people/kernh/publications/Green%20and%20Kern%20BART.pdf
Saya telah melakukan beberapa pekerjaan baru-baru ini pada peristiwa langka, dan tidak tahu sebelumnya berapa banyak kasus langka dapat mempengaruhi analisis. Pengambilan sampel 0 kasus merupakan keharusan. Salah satu strategi untuk menemukan proporsi sampel-down yang ideal adalah
Semoga ini membantu. JS
sumber