Saya menjalankan regresi logit biner di mana saya tahu variabel dependen salah dicatat dalam sebagian kecil kasus. Jadi saya mencoba memperkirakan dalam model ini:
Tapi bukannya vektor , Saya sudah , yang mencakup beberapa kesalahan acak (mis tapi , atau sebaliknya, untuk beberapa orang ).
Apakah ada (cukup) koreksi sederhana untuk masalah ini?
Saya tahu bahwa logit memiliki beberapa sifat yang bagus dalam studi kasus kontrol. Sepertinya sesuatu yang serupa berlaku di sini, tetapi saya belum dapat menemukan solusi yang baik.
Beberapa kendala lain: ini adalah aplikasi penambangan teks, jadi dimensinya besar (dalam ribuan atau puluhan ribu). Ini mungkin mengesampingkan beberapa prosedur intensif komputasi.
Juga, saya tidak peduli tentang memperkirakan dengan benar hanya .
Anda dapat memperkirakan model kesalahan parametrik menggunakan MLE, atau Anda dapat menggunakan pendekatan semi-paramteris berdasarkan sesuatu seperti penaksir korelasi korelasi maksimal (MRC). Secara komputasional, MRC merupakan penghalang untuk sampel besar, jadi sepertinya MLE adalah pendekatan yang tepat untuk saya.
Terima kasih kepada GaBorgulya untuk beberapa arahan yang cepat dan cepat, terutama pada istilah "kesalahan klasifikasi."
Berikut adalah beberapa sumber yang bagus tentang topik ini:
Model dasar, persis seperti yang dijelaskan dalam masalah asli
Versi tidak sama yang sama
Model yang lebih rumit, tetapi lebih umum
Tinjauan yang bagus
sumber