Ini adalah pertanyaan mengenai praktik atau metode yang diikuti oleh beberapa rekan saya. Saat membuat model regresi logistik, saya telah melihat orang-orang mengganti variabel kategori (atau variabel kontinu yang dihilangkan) dengan masing-masing Bobot Bukti (WoE) masing-masing. Ini seharusnya dilakukan untuk membangun hubungan monoton antara regressor dan variabel dependen. Sekarang sejauh yang saya mengerti, setelah model dibuat, variabel dalam persamaan BUKAN variabel dalam dataset. Alih-alih, variabel-variabel dalam persamaan sekarang menjadi semacam kepentingan atau bobot variabel dalam memilah variabel dependen !
Pertanyaan saya adalah: bagaimana kita sekarang menafsirkan model atau koefisien model? Misalnya untuk persamaan berikut:
kita dapat mengatakan bahwa adalah peningkatan relatif dalam rasio odd untuk 1 peningkatan unit dalam variabel .x 1
Tetapi jika variabel digantikan oleh WoE-nya, maka interpretasinya akan diubah menjadi: peningkatan relatif dalam rasio ganjil untuk 1 unit peningkatan IMPORANCE / WEIGHT dari variabel
Saya telah melihat praktik ini di internet, tetapi tidak menemukan jawaban untuk pertanyaan ini. Tautan dari komunitas ini sendiri terkait dengan permintaan yang agak mirip tempat seseorang menulis:
WoE menampilkan hubungan linear dengan logaritma natural dari rasio odds yang merupakan variabel dependen dalam regresi logistik. Oleh karena itu, pertanyaan tentang kesalahan spesifikasi model tidak muncul dalam regresi logistik ketika kita menggunakan WoE alih-alih nilai aktual dari variabel.
Tapi saya masih belum mendapatkan penjelasannya. Tolong bantu saya memahami apa yang saya lewatkan.
Jawaban:
Metode WoE terdiri dari dua langkah:
1 - untuk membagi variabel (kontinu) menjadi beberapa kategori atau untuk mengelompokkan variabel (diskrit) menjadi beberapa kategori (dan dalam kedua kasus Anda mengasumsikan bahwa semua pengamatan dalam satu kategori memiliki efek "sama" pada variabel dependen)
2 - untuk menghitung WoE nilai untuk setiap kategori (maka nilai x asli digantikan oleh nilai WoE)
Transformasi WoE memiliki (setidaknya) tiga efek positif:
1) Dapat mengubah variabel independen sehingga membangun hubungan monotonik dengan variabel dependen. Sebenarnya ia melakukan lebih dari ini - untuk mengamankan hubungan monoton itu akan cukup untuk "recode" itu ke ukuran yang dipesan (misalnya 1,2,3,4 ...) tetapi transformasi WoE sebenarnya memesan kategori pada "logistik" "skala yang alami untuk regresi logistik
2) Untuk variabel dengan nilai diskrit yang terlalu banyak (jarang dihuni), ini dapat dikelompokkan ke dalam kategori (padat penduduk) dan WoE dapat digunakan untuk mengekspresikan informasi untuk seluruh kategori
3) Efek (univariat) dari setiap kategori pada variabel dependen dapat dengan mudah dibandingkan antar kategori dan antar variabel karena WoE adalah nilai standar (misalnya Anda dapat membandingkan WoE dari orang yang menikah dengan WoE dari pekerja manual)
Ini juga memiliki (setidaknya) tiga kelemahan:
1) Kehilangan informasi (variasi) karena binning ke beberapa kategori
2) Ini adalah ukuran "univariat" sehingga tidak memperhitungkan korelasi antar variabel independen
3) Mudah untuk memanipulasi (overfit) efek variabel sesuai dengan bagaimana kategori dibuat
Secara konvensional, beta dari regresi (di mana x telah digantikan oleh WoE) tidak ditafsirkan per se tetapi mereka dikalikan dengan WoE untuk mendapatkan "skor" (misalnya beta untuk variabel "status perkawinan" dapat dikalikan dengan WoE dari "orang yang menikah" kelompok untuk melihat skor orang yang menikah; beta untuk "pekerjaan" variabel dapat dikalikan dengan WoE dari "pekerja manual" untuk melihat skor pekerja manual, maka jika Anda tertarik dengan skor pekerja manual yang sudah menikah, Anda meringkas kedua skor ini dan melihat seberapa besar pengaruhnya terhadap hasil). Semakin tinggi skornya, semakin besar probabilitas hasil sama dengan 1.
sumber
Rasional untuk menggunakan WOE dalam regresi logistik adalah untuk menghasilkan apa yang kadang-kadang disebut Pengklasifikasi Semi-Naif Bayesian (SNBC). Awal posting blog ini menjelaskan beberapa hal dengan sangat baik: http://multithreaded.stitchfix.com/blog/2015/08/13/weight-of-evidence/
Parameter beta dalam model adalah bias linear dari masing-masing efek naif (alias bobot-bukti) karena adanya prediktor lain dan mereka dapat diartikan sebagai perubahan linear dalam peluang log dari prediktor tertentu karena kehadiran prediktor lain.
sumber
Weight of Evidence (WoE) adalah teknik yang ampuh untuk melakukan transformasi & seleksi variabel. Ini banyak digunakan dalam penilaian kredit untuk mengukur pemisahan pelanggan baik dan buruk. (Variabel). Keuntungan :: - Menangani nilai-nilai yang hilang Menangani outlier transformasi didasarkan pada nilai distribusi logritmik. Tidak perlu untuk variabel dummy dengan menggunakan teknik binning yang tepat, itu dapat membangun hubungan monoton antara independen & dependen.
mono_bin () = digunakan untuk variabel numerik. char_bin () = digunakan untuk variabel karakter.
sumber