Apakah standardisasi diperlukan sebelum menyesuaikan regresi logistik?

39

Pertanyaan saya adalah apakah kita perlu menstandarkan set data untuk memastikan semua variabel memiliki skala yang sama, antara [0,1], sebelum menyesuaikan regresi logistik. Rumusnya adalah:

ximin(xi)max(xi)min(xi)

Kumpulan data saya memiliki 2 variabel, mereka menggambarkan hal yang sama untuk dua saluran, tetapi volumenya berbeda. Katakan itu adalah jumlah kunjungan pelanggan di dua toko, y di sini adalah apakah pelanggan membeli. Karena seorang pelanggan dapat mengunjungi kedua toko, atau dua kali toko pertama, toko sekali kedua sebelum dia melakukan pembelian. tetapi jumlah total kunjungan pelanggan untuk toko pertama adalah 10 kali lebih besar dari toko kedua. Ketika saya cocok dengan regresi logistik ini, tanpa standarisasi coef(store1)=37, coef(store2)=13,; jika saya membakukan data, maka coef(store1)=133, coef(store2)=11. Sesuatu seperti ini. Pendekatan mana yang lebih masuk akal?

Bagaimana jika saya cocok dengan model pohon keputusan? Saya tahu model struktur pohon tidak memerlukan standarisasi karena model itu sendiri akan menyesuaikannya. Tetapi memeriksa dengan Anda semua.

pengguna1946504
sumber
10
Anda tidak perlu membuat standar kecuali regresi Anda diatur. Namun, terkadang membantu interpretabilitas, dan jarang menyakitkan.
alex
3
Bukankah cara yang biasa untuk menstandarkan xix¯sd(x) ?
Peter Flom - Reinstate Monica
1
@ Peter, itulah yang saya pikirkan sebelumnya, tetapi saya menemukan artikel benetzkorn.com/2011/11/data-normalalization-and-standardization/… >, sepertinya normalisasi dan standardisasi adalah hal yang berbeda. Satu adalah untuk membuat rata-rata 0 varians 1, yang lain adalah untuk mengubah skala setiap variabel. Di situlah saya bingung. Terima kasih untuk balasan Anda.
user1946504
7
Bagi saya standardisasi membuat interpretasi jauh lebih sulit.
Frank Harrell
2
Untuk mengklarifikasi apa yang dikatakan @alex, mengubah skala data Anda berarti Cperubahan faktor regularisasi yang optimal . Jadi, Anda perlu memilih Csetelah menstandardisasi data.
akxlr

Jawaban:

37

Standardisasi tidak diperlukan untuk regresi logistik. Tujuan utama standardisasi fitur adalah untuk membantu konvergensi teknik yang digunakan untuk optimasi. Misalnya, jika Anda menggunakan Newton-Raphson untuk memaksimalkan kemungkinan, menstandarisasi fitur membuat konvergensi lebih cepat. Jika tidak, Anda dapat menjalankan regresi logistik Anda tanpa perlakuan standardisasi pada fitur.

Aymen
sumber
Terima kasih untuk balasan Anda. Apakah itu berarti standardisasi lebih disukai? Karena kita benar-benar ingin model bertemu dan ketika kita memiliki jutaan variabel, hanya lebih mudah untuk mengimplementasikan logika standardisasi dalam pipa pemodelan daripada menyetel variabel satu per satu sesuai kebutuhan. Apakah saya mengerti benar?
user1946504
4
itu tergantung pada tujuan analisis. Perangkat lunak modern dapat menangani data yang sangat ekstrem tanpa standarisasi. Jika ada unit alami untuk setiap variabel (tahun, euro, kg, dll.) Maka saya akan ragu untuk melakukan standarisasi, meskipun saya merasa bebas untuk mengubah unit dari kg menjadi misalnya ton atau gram setiap kali itu lebih masuk akal.
Maarten Buis
19

@Aymen benar, Anda tidak perlu menormalkan data Anda untuk regresi logistik. (Untuk informasi yang lebih umum, mungkin membantu untuk membaca utas CV ini: Kapan Anda harus memusatkan data Anda & kapan Anda harus melakukan standarisasi ?; Anda mungkin juga mencatat bahwa transformasi Anda lebih umum disebut 'normalisasi', lihat: Cara memverifikasi suatu distribusi dinormalisasi? ) Biarkan saya membahas beberapa poin lain dalam pertanyaan.

Perlu dicatat di sini bahwa dalam regresi logistik koefisien Anda menunjukkan efek perubahan satu unit dalam variabel prediktor Anda pada peluang log 'sukses'. Efek mentransformasikan variabel (seperti dengan standarisasi atau normalisasi) adalah mengubah apa yang kita sebut 'unit' dalam konteks model kita. Data mentah Anda beragam di beberapa jumlah unit dalam metrik asli. Setelah dinormalisasi, data Anda berkisar dari hingga . Artinya, perubahan satu unit sekarang berarti beralih dari observasi bernilai terendah ke observasi bernilai tertinggi. Jumlah peningkatan peluang keberhasilan tidak berubah. Dari fakta-fakta ini, saya menduga bahwa variabel pertama Anda ( ) membentang0 1 133 / 37 3,6 11 / 13 0,85x01store1133/373.6unit asli, dan variabel kedua Anda ( store2) membentang hanya unit asli. 11/130.85

gung - Reinstate Monica
sumber
17

Jika Anda menggunakan regresi logistik dengan LASSO atau regresi ridge (seperti kelas Weka Logistic ) Anda harus. Seperti yang ditunjukkan Hastie, Tibshirani, dan Friedman (halaman 82 dari pdf atau di halaman 63 buku):

Solusi punggungan tidak sama dalam penskalaan input, dan karenanya orang biasanya menstandarisasi input sebelum menyelesaikan.

Juga utas ini tidak.

erupsi
sumber