Kapan transformasi bobot bukti (WOE) dari variabel kategori bermanfaat?
Contohnya dapat dilihat pada transformasi WOE
(Jadi untuk respons , & prediktor kategoris dengan kategori , & berhasil keluar dari percobaan dalam kategori dari prediktor ini, WOE untuk kategori didefinisikan sebagai
& transformasi terdiri dari pengkodean setiap kategori prediktor kategori dengan WOE-nya untuk membentuk prediktor kontinu baru.)
Saya ingin mempelajari alasan mengapa transformasi WOE membantu regresi logistik. Apa teori di balik ini?
Klasifikasi kasar menggunakan ukuran bobot Bukti (WoE) memiliki keunggulan sebagai berikut - WoE menampilkan hubungan linier dengan logaritma natural dari rasio odds yang merupakan variabel dependen dalam regresi logistik.
Oleh karena itu, pertanyaan tentang kesalahan spesifikasi model tidak muncul dalam regresi logistik ketika kita menggunakan WoE alih-alih nilai aktual dari variabel.
α β W o E ( V a r 1 ) γ W o E ( V a r 2 ) η W o E ( V a r 3 )ln(p/1−p) = + * + * + *α β WoE(Var1) γ WoE(Var2) η WoE(Var3)
Sumber: Di salah satu PPT, pelatih saya menunjukkan kepada saya selama pelatihan perusahaan.
sumber
Transformasi WOE membantu ketika Anda memiliki data numerik dan kategorikal yang perlu Anda gabungkan dan hilang nilainya selama Anda ingin mengekstraksi informasi. Mengubah segalanya menjadi WOE membantu "menstandarkan" berbagai tipe data (bahkan data yang hilang) ke skala peluang log yang sama. Posting blog ini menjelaskan hal-hal yang cukup baik: http://multithreaded.stitchfix.com/blog/2015/08/13/weight-of-evidence/
Singkat cerita adalah bahwa Regresi Logistik dengan WOE, seharusnya (dan) disebut Semi-Naïve Bayesian Classifier (SNBC). Jika Anda mencoba memahami algoritme, nama SNBC, bagi saya, jauh lebih informatif.
sumber