Mengapa orang harus melakukan transformasi WOE dari prediktor kategorik dalam regresi logistik?

10

Kapan transformasi bobot bukti (WOE) dari variabel kategori bermanfaat?

Contohnya dapat dilihat pada transformasi WOE

(Jadi untuk respons , & prediktor kategoris dengan kategori , & berhasil keluar dari percobaan dalam kategori dari prediktor ini, WOE untuk kategori didefinisikan sebagaiykyjnjjj

logyjjkyjjk(njyj)njyj

& transformasi terdiri dari pengkodean setiap kategori prediktor kategori dengan WOE-nya untuk membentuk prediktor kontinu baru.)

Saya ingin mempelajari alasan mengapa transformasi WOE membantu regresi logistik. Apa teori di balik ini?

adam
sumber

Jawaban:

6

Dalam contoh yang Anda tautkan, prediktor kategoris diwakili oleh variabel kontinu tunggal yang mengambil nilai untuk setiap level yang sama dengan peluang log yang diamati dari respons di level tersebut (ditambah konstanta):

logyjnjyj+logjk(njyj)jkyj

Kebingungan ini tidak ada gunanya sama sekali yang dapat saya pikirkan: Anda akan mendapatkan respons prediksi yang sama seperti jika Anda menggunakan pengkodean boneka biasa; tetapi derajat kebebasannya salah, membatalkan beberapa bentuk kesimpulan yang berguna tentang model tersebut.

Dalam regresi berganda, dengan beberapa prediktor kategori untuk berubah, saya kira Anda akan menghitung WOE untuk masing-masing menggunakan odds log marginal. Itu akan mengubah respons yang diprediksi; tetapi karena perancu tidak diperhitungkan — peluang log bersyarat bukanlah fungsi linear dari peluang log marginal - saya tidak dapat melihat alasan untuk menganggapnya sebagai peningkatan, & masalah inferensial tetap ada.

Scortchi - Reinstate Monica
sumber
Bisakah Anda menjelaskan mengapa derajat kebebasan salah dengan WOE? Itu hanya transformasi kan? Juga bagaimana jika kami memiliki beberapa variabel kategori, dan kami mendapat WOE untuk masing-masing satu per satu? Dalam pengalaman saya ketika Anda memiliki banyak variabel kategori, maka beberapa ember di antara variabel yang berbeda tumpang tindih banyak, dan Anda mulai melihat beberapa koefisien yang tidak signifikan. Dan juga Anda perlu membawa beberapa koefisien.
Adam
1
(1) Suatu transformasi yang tergantung pada evaluasi hubungan prediktor dengan respons - sesuatu yang seharusnya diserahkan pada regresi. Jadi misalnya statistik uji rasio kemungkinan tidak akan memiliki distribusi yang sama seperti ketika suatu transformasi ditentukan sebelumnya. (2) Poin bagus! - regresi berganda pada WOEs tidak akan setara dengan yang pada variabel dummy (kecuali model jenuh). (3) Jadi apa? (4) Koefisien tidak lebih berat dari WOE.
Scortchi
1

Klasifikasi kasar menggunakan ukuran bobot Bukti (WoE) memiliki keunggulan sebagai berikut - WoE menampilkan hubungan linier dengan logaritma natural dari rasio odds yang merupakan variabel dependen dalam regresi logistik.
Oleh karena itu, pertanyaan tentang kesalahan spesifikasi model tidak muncul dalam regresi logistik ketika kita menggunakan WoE alih-alih nilai aktual dari variabel.

α β W o E ( V a r 1 ) γ W o E ( V a r 2 ) η W o E ( V a r 3 )ln(p/1p) = + * + * + *αβWoE(Var1)γWoE(Var2)ηWoE(Var3)

Sumber: Di salah satu PPT, pelatih saya menunjukkan kepada saya selama pelatihan perusahaan.

Srikanth Guhan
sumber
1
"model kesalahan spesifikasi tidak muncul dalam regresi logistik ketika kita menggunakan WoE daripada nilai aktual dari variabel". Bisakah Anda menjelaskan / membuktikan ini secara matematis?
Adam
Saya bukan dari latar belakang analisis risiko, tetapi hal 131.132 dari buku ini tampaknya mengatakan demikian books.google.co.in/…
Srikanth Guhan
Juga link ini mengklaim yang sama meskipun tidak ada matematika dijelaskan analyticbridge.com/forum/topics/...
Srikanth Guhan
Terima kasih atas tautannya, tetapi jelas tidak benar bahwa peluang log marginal yang sebanding dengan WoE memiliki hubungan linier dengan peluang log kondisional yang terkait dengan regresi logistik itu sendiri. Membingungkan dengan prediktor lain bahkan dapat mengakibatkan kategori pemesanan WoE berbeda.
Scortchi
1

Transformasi WOE membantu ketika Anda memiliki data numerik dan kategorikal yang perlu Anda gabungkan dan hilang nilainya selama Anda ingin mengekstraksi informasi. Mengubah segalanya menjadi WOE membantu "menstandarkan" berbagai tipe data (bahkan data yang hilang) ke skala peluang log yang sama. Posting blog ini menjelaskan hal-hal yang cukup baik: http://multithreaded.stitchfix.com/blog/2015/08/13/weight-of-evidence/

Singkat cerita adalah bahwa Regresi Logistik dengan WOE, seharusnya (dan) disebut Semi-Naïve Bayesian Classifier (SNBC). Jika Anda mencoba memahami algoritme, nama SNBC, bagi saya, jauh lebih informatif.

Stephened
sumber