Mengganti Variabel dengan WoE (Bobot Bukti) dalam Regresi Logistik

14

Ini adalah pertanyaan mengenai praktik atau metode yang diikuti oleh beberapa rekan saya. Saat membuat model regresi logistik, saya telah melihat orang-orang mengganti variabel kategori (atau variabel kontinu yang dihilangkan) dengan masing-masing Bobot Bukti (WoE) masing-masing. Ini seharusnya dilakukan untuk membangun hubungan monoton antara regressor dan variabel dependen. Sekarang sejauh yang saya mengerti, setelah model dibuat, variabel dalam persamaan BUKAN variabel dalam dataset. Alih-alih, variabel-variabel dalam persamaan sekarang menjadi semacam kepentingan atau bobot variabel dalam memilah variabel dependen !

Pertanyaan saya adalah: bagaimana kita sekarang menafsirkan model atau koefisien model? Misalnya untuk persamaan berikut:

log(p1p)=β0+β1x1

kita dapat mengatakan bahwa adalah peningkatan relatif dalam rasio odd untuk 1 peningkatan unit dalam variabel .x 1exp(β1) x1

Tetapi jika variabel digantikan oleh WoE-nya, maka interpretasinya akan diubah menjadi: peningkatan relatif dalam rasio ganjil untuk 1 unit peningkatan IMPORANCE / WEIGHT dari variabel

Saya telah melihat praktik ini di internet, tetapi tidak menemukan jawaban untuk pertanyaan ini. Tautan dari komunitas ini sendiri terkait dengan permintaan yang agak mirip tempat seseorang menulis:

WoE menampilkan hubungan linear dengan logaritma natural dari rasio odds yang merupakan variabel dependen dalam regresi logistik. Oleh karena itu, pertanyaan tentang kesalahan spesifikasi model tidak muncul dalam regresi logistik ketika kita menggunakan WoE alih-alih nilai aktual dari variabel.

Tapi saya masih belum mendapatkan penjelasannya. Tolong bantu saya memahami apa yang saya lewatkan.

Samoy
sumber
x 1 x 1exp(β1) adalah rasio odds yang terkait dengan peningkatan 1 unit dalam , bukan " peningkatan relatif dalam rasio odds terkait dengan peningkatan 1 unit dalam ". x1x1
gung - Reinstate Monica
Nggak. Jelas untuk menyingkirkan Anda harus mengambil rasio LHS setelah eksponensialβ0
SamRoy
Peluangnya adalah p / (1-p), jadi jika p (x) = exp (𝛽0 + 𝛽1x) dan p (x + 1) = exp (𝛽0 + 𝛽1x + 𝛽1) perhatikan bahwa p (x + 1) = exp (𝛽0 + 𝛽1x) exp (𝛽1) dan akhirnya rasio odds p (x + 1) / p (x) = exp (𝛽1) sebagaimana dinyatakan oleh stats.stackexchange.com/users/7290/gung
hwrd

Jawaban:

12

Metode WoE terdiri dari dua langkah:

1 - untuk membagi variabel (kontinu) menjadi beberapa kategori atau untuk mengelompokkan variabel (diskrit) menjadi beberapa kategori (dan dalam kedua kasus Anda mengasumsikan bahwa semua pengamatan dalam satu kategori memiliki efek "sama" pada variabel dependen)
2 - untuk menghitung WoE nilai untuk setiap kategori (maka nilai x asli digantikan oleh nilai WoE)

Transformasi WoE memiliki (setidaknya) tiga efek positif:
1) Dapat mengubah variabel independen sehingga membangun hubungan monotonik dengan variabel dependen. Sebenarnya ia melakukan lebih dari ini - untuk mengamankan hubungan monoton itu akan cukup untuk "recode" itu ke ukuran yang dipesan (misalnya 1,2,3,4 ...) tetapi transformasi WoE sebenarnya memesan kategori pada "logistik" "skala yang alami untuk regresi logistik
2) Untuk variabel dengan nilai diskrit yang terlalu banyak (jarang dihuni), ini dapat dikelompokkan ke dalam kategori (padat penduduk) dan WoE dapat digunakan untuk mengekspresikan informasi untuk seluruh kategori
3) Efek (univariat) dari setiap kategori pada variabel dependen dapat dengan mudah dibandingkan antar kategori dan antar variabel karena WoE adalah nilai standar (misalnya Anda dapat membandingkan WoE dari orang yang menikah dengan WoE dari pekerja manual)

Ini juga memiliki (setidaknya) tiga kelemahan:
1) Kehilangan informasi (variasi) karena binning ke beberapa kategori
2) Ini adalah ukuran "univariat" sehingga tidak memperhitungkan korelasi antar variabel independen
3) Mudah untuk memanipulasi (overfit) efek variabel sesuai dengan bagaimana kategori dibuat

Secara konvensional, beta dari regresi (di mana x telah digantikan oleh WoE) tidak ditafsirkan per se tetapi mereka dikalikan dengan WoE untuk mendapatkan "skor" (misalnya beta untuk variabel "status perkawinan" dapat dikalikan dengan WoE dari "orang yang menikah" kelompok untuk melihat skor orang yang menikah; beta untuk "pekerjaan" variabel dapat dikalikan dengan WoE dari "pekerja manual" untuk melihat skor pekerja manual, maka jika Anda tertarik dengan skor pekerja manual yang sudah menikah, Anda meringkas kedua skor ini dan melihat seberapa besar pengaruhnya terhadap hasil). Semakin tinggi skornya, semakin besar probabilitas hasil sama dengan 1.

Kuda Raja Salomo
sumber
1
(+1) Mengapa menguntungkan untuk mengkode ulang prediktor untuk memiliki hubungan monoton dengan respons?
Scortchi
1
@Scortchi Saya dapat memikirkan contoh - variabel independen adalah tinggi orang (diukur dalam cm), orang akan berbelanja pakaian bagus, variabel dependen akan menjadi acara biner - apakah mereka bisa atau tidak bisa membeli pakaian yang cocok dan nyaman. tampaknya orang-orang yang sangat kecil dan sangat tinggi akan kesulitan membeli pakaian yang cocok, sementara orang-orang di tengah dapat melakukannya dengan mudah. Dengan regresi sederhana (tanpa interaksi dan tanpa transformasi), Anda hanya bisa memodelkan bahwa kemungkinan membeli pakaian yang sesuai dapat meningkat atau berkurang dengan ketinggian orang
Kuda King Solomon
1
Orang biasanya tidak menggunakan transformasi prediktor non-monoton - tidak dalam pemodelan empiris pula. Termasuk interaksi dapat menghapus atau memperkenalkan hubungan non-monotonik bersyarat, seperti dapat termasuk prediktor lainnya. Tetapi merepresentasikan prediktor dengan fungsi basis polinomial atau spline adalah cara yang mudah untuk memungkinkannya; & yang lain sedang menggalinya & kemudian memperlakukannya sebagai kategori, menggunakan misalnya pengkodean tingkat referensi. Paling tidak, yang terakhir, jauh lebih sederhana daripada transformasi WoE ini; tidak ada yang berbagi kerugian untuk ...
Scortchi - Reinstate Monica
1
... inferensi & interpretabilitas yang timbul dari mendefinisikan prediktor dalam hal respons; & semua memungkinkan hubungan kondisional non-monoton untuk dimodelkan bahkan ketika hubungan marjinal bersifat monoton (atau sebaliknya). Saya kira apa yang saya maksudkan adalah bahwa transformasi WoE menurut saya menjadi solusi dalam mencari masalah. Adakah kelas situasi di mana ia menghasilkan prediksi yang lebih baik daripada metode yang lebih banyak digunakan? - meskipun itu pertanyaan yang berbeda dengan yang Anda jawab di sini (mungkin stats.stackexchange.com/q/166816/17230 ).
Scortchi
Bagaimana jika Anda sudah memiliki data kategorikal? maka apakah satu-satunya keuntungan "untuk membangun hubungan monoton"? Sepertinya komponen penting WoE sebenarnya dalam proses binning
information_interchange
7

Rasional untuk menggunakan WOE dalam regresi logistik adalah untuk menghasilkan apa yang kadang-kadang disebut Pengklasifikasi Semi-Naif Bayesian (SNBC). Awal posting blog ini menjelaskan beberapa hal dengan sangat baik: http://multithreaded.stitchfix.com/blog/2015/08/13/weight-of-evidence/

Parameter beta dalam model adalah bias linear dari masing-masing efek naif (alias bobot-bukti) karena adanya prediktor lain dan mereka dapat diartikan sebagai perubahan linear dalam peluang log dari prediktor tertentu karena kehadiran prediktor lain.

Stephened
sumber
1

Weight of Evidence (WoE) adalah teknik yang ampuh untuk melakukan transformasi & seleksi variabel. Ini banyak digunakan dalam penilaian kredit untuk mengukur pemisahan pelanggan baik dan buruk. (Variabel). Keuntungan :: - Menangani nilai-nilai yang hilang Menangani outlier transformasi didasarkan pada nilai distribusi logritmik. Tidak perlu untuk variabel dummy dengan menggunakan teknik binning yang tepat, itu dapat membangun hubungan monoton antara independen & dependen.

mono_bin () = digunakan untuk variabel numerik. char_bin () = digunakan untuk variabel karakter.

Krishna75
sumber