Pertanyaan saya adalah apakah kita perlu menstandarkan set data untuk memastikan semua variabel memiliki skala yang sama, antara [0,1], sebelum menyesuaikan regresi logistik. Rumusnya adalah:
Kumpulan data saya memiliki 2 variabel, mereka menggambarkan hal yang sama untuk dua saluran, tetapi volumenya berbeda. Katakan itu adalah jumlah kunjungan pelanggan di dua toko, y di sini adalah apakah pelanggan membeli. Karena seorang pelanggan dapat mengunjungi kedua toko, atau dua kali toko pertama, toko sekali kedua sebelum dia melakukan pembelian. tetapi jumlah total kunjungan pelanggan untuk toko pertama adalah 10 kali lebih besar dari toko kedua. Ketika saya cocok dengan regresi logistik ini, tanpa standarisasi coef(store1)=37, coef(store2)=13
,; jika saya membakukan data, maka coef(store1)=133, coef(store2)=11
. Sesuatu seperti ini. Pendekatan mana yang lebih masuk akal?
Bagaimana jika saya cocok dengan model pohon keputusan? Saya tahu model struktur pohon tidak memerlukan standarisasi karena model itu sendiri akan menyesuaikannya. Tetapi memeriksa dengan Anda semua.
sumber
C
perubahan faktor regularisasi yang optimal . Jadi, Anda perlu memilihC
setelah menstandardisasi data.Jawaban:
Standardisasi tidak diperlukan untuk regresi logistik. Tujuan utama standardisasi fitur adalah untuk membantu konvergensi teknik yang digunakan untuk optimasi. Misalnya, jika Anda menggunakan Newton-Raphson untuk memaksimalkan kemungkinan, menstandarisasi fitur membuat konvergensi lebih cepat. Jika tidak, Anda dapat menjalankan regresi logistik Anda tanpa perlakuan standardisasi pada fitur.
sumber
@Aymen benar, Anda tidak perlu menormalkan data Anda untuk regresi logistik. (Untuk informasi yang lebih umum, mungkin membantu untuk membaca utas CV ini: Kapan Anda harus memusatkan data Anda & kapan Anda harus melakukan standarisasi ?; Anda mungkin juga mencatat bahwa transformasi Anda lebih umum disebut 'normalisasi', lihat: Cara memverifikasi suatu distribusi dinormalisasi? ) Biarkan saya membahas beberapa poin lain dalam pertanyaan.
Perlu dicatat di sini bahwa dalam regresi logistik koefisien Anda menunjukkan efek perubahan satu unit dalam variabel prediktor Anda pada peluang log 'sukses'. Efek mentransformasikan variabel (seperti dengan standarisasi atau normalisasi) adalah mengubah apa yang kita sebut 'unit' dalam konteks model kita. Data mentah Anda beragam di beberapa jumlah unit dalam metrik asli. Setelah dinormalisasi, data Anda berkisar dari hingga . Artinya, perubahan satu unit sekarang berarti beralih dari observasi bernilai terendah ke observasi bernilai tertinggi. Jumlah peningkatan peluang keberhasilan tidak berubah. Dari fakta-fakta ini, saya menduga bahwa variabel pertama Anda ( ) membentang0 1 133 / 37 ≈ 3,6 11 / 13 ≈ 0,85x 0 1 133/37≈3.6 unit asli, dan variabel kedua Anda ( 11/13≈0.85
store1
store2
) membentang hanya unit asli.sumber
Jika Anda menggunakan regresi logistik dengan LASSO atau regresi ridge (seperti kelas Weka Logistic ) Anda harus. Seperti yang ditunjukkan Hastie, Tibshirani, dan Friedman (halaman 82 dari pdf atau di halaman 63 buku):
Juga utas ini tidak.
sumber