Saya baru mengenal ML. Saya diberitahu bahwa L2-normalisasi regresi ridge tidak menghukum intersepsi . Seperti dalam fungsi biaya: Istilah normalisasi L2 \ lambda \ sum_ { j = 1} ^ {n} {\ theta_ {j} ^ {2}} hanya jumlah dari j = 1 ke n , bukan dari j = 0 ke n . Saya juga membaca itu:
dalam kebanyakan kasus (semua kasus?), Anda lebih baik tidak mengatur , karena itu tidak mungkin untuk mengurangi overfitting dan menyusut ruang fungsi yang dapat diwakili
yang berasal dari jawaban terakhir dari user48956 dari Mengapa model regresi linear mencegat nol memprediksi lebih baik daripada model dengan mencegat?
Saya bingung bagaimana menyelesaikan turunan dari fungsi biaya, karena:
dan berbeda. Karena itu mereka tidak dapat dicampur dari sudut pandang saya. Dan turunannya adalah tentang, yang berisi . Setelah googling dan melihat pertanyaan di forum ini, masih belum ada cara bagi saya untuk mendapatkan solusinya: Adakah yang bisa memberi saya petunjuk? Terima kasih sebelumnya atas bantuan Anda!
Namun, saya pikir ada dua perbaikan cepat untuk masalah ini:
Pertama-tama, kita tidak menambahkan kolom semua 1 ke . Yaitu . Artinya kita tidak memasukkan intersep sama sekali dalam model: Saya percaya metode ini diadopsi dalam buku klasik Machine Learning in Action oleh Peter Harrington yang saat ini saya baca. Dalam penerapan regresi ridge (P166 dan P177 jika Anda juga memiliki buku), semua dilewatkan ke regresi ridge tidak memiliki semua 1 kolom.
Kedua, intersep juga dihukum dalam kenyataan.
Regresi logistik scikit mengatur pengaturan intersepsi secara default.
yang sekali lagi datang dari jawaban terakhir dari user48956 dari Mengapa model regresi linear mencegat nol memprediksi lebih baik daripada model dengan mencegat?
Kedua perbaikan cepat ini mengarah ke solusi
Jadi bisakah turunan L2-normalisasi regresi ridge benar-benar diselesaikan atau hanya diselesaikan dengan perbaikan cepat?
Jawaban:
Elemen Pembelajaran Statistik oleh Hastie et al. menunjukkan dalam P63 bahwa:
Lebih jauh, dikatakan:
Meskipun saya bertanya-tanya mengapa Elemen Pembelajaran Statistik pertama menyarankan standardisasi fitur dan kemudian hanya fitur centering dilakukan. Mungkin setuju dengan Latihan 3.5 yang hanya menggunakan fitur pemusatan fitur.
Bagaimanapun, saya percaya itu benar untuk menerapkan standardisasi z-skor untuk fitur. Jadi saya sekarang mencoba untuk menyelesaikan turunan dari fungsi biaya regresi ridge mengikuti saran dari amoeba komentator di atas. Terima kasih banyak padanya!
Pertama, fungsi biaya: mana adalah rata-rata dari atribut dan adalah standar deviasi . Untuk membuatnya lebih singkat: Sekarang pertama-tama kita menghitung nilai
Jadi intersepsi dari regresi ridge yang distandarisasi fitur selalu . Karenanya jika kita memusatkan terlebih dahulu dengan mengurangi rerata (dapatkan untuk data contoh ), tidak termasuk semua 1 kolom dalam , dan kemudian lakukan standarisasi fitur pada (get untuk dari contoh data ) , fungsi biaya hanya akan menjadi Yaituy¯¯¯ Y (yi)′ i X X (X(i)j)′ Xj i
sumber