Saya membaca buku-buku tentang regresi linier. Ada beberapa kalimat tentang norma L1 dan L2. Saya tahu mereka, hanya tidak mengerti mengapa norma L1 untuk model jarang. Bisakah seseorang menggunakan memberikan penjelasan
Dimasukkannya kendala tambahan (biasanya penalti untuk kompleksitas) dalam proses pemasangan model. Digunakan untuk mencegah overfitting / meningkatkan akurasi prediksi.
Saya membaca buku-buku tentang regresi linier. Ada beberapa kalimat tentang norma L1 dan L2. Saya tahu mereka, hanya tidak mengerti mengapa norma L1 untuk model jarang. Bisakah seseorang menggunakan memberikan penjelasan
Saya mencari definisi non-teknis dari laso dan apa yang digunakan untuk
Saya telah membaca Elemen Pembelajaran Statistik , dan saya ingin tahu mengapa Lasso menyediakan pemilihan variabel dan regresi ridge tidak. Kedua metode meminimalkan jumlah residu kuadrat dan memiliki batasan pada nilai yang mungkin dari parameter ββ\beta . Untuk Lasso, batasannya adalah...
Tidak seperti artikel lain, saya menemukan entri wikipedia untuk subjek ini tidak dapat dibaca oleh orang yang bukan ahli matematika (seperti saya). Saya mengerti ide dasar, bahwa Anda menyukai model dengan aturan yang lebih sedikit. Apa yang tidak saya dapatkan adalah bagaimana Anda mendapatkan...
Saya terus membaca ini dan secara intuitif saya bisa melihat ini, tetapi bagaimana orang beralih dari regularisasi L2 ke mengatakan bahwa ini adalah Gaussian Prior secara analitik? Hal yang sama berlaku untuk mengatakan L1 setara dengan Laplacean sebelumnya. Referensi lebih lanjut akan bagus....
Untuk menyelesaikan masalah pemilihan model, sejumlah metode (LASSO, ridge regression, dll.) Akan mengecilkan koefisien variabel prediktor menjadi nol. Saya mencari penjelasan intuitif mengapa ini meningkatkan kemampuan prediksi. Jika efek sebenarnya dari variabel itu sebenarnya sangat besar,...
Setiap kali regularisasi digunakan, sering ditambahkan ke fungsi biaya seperti dalam fungsi biaya berikut. Ini masuk akal bagi saya karena meminimalkan fungsi biaya berarti meminimalkan kesalahan (istilah kiri) dan meminimalkan besaran koefisien (istilah yang tepat) pada saat yang sama (atau...
Dalam statistik tradisional, saat membangun model, kami memeriksa multikolinieritas menggunakan metode seperti perkiraan variance inflation factor (VIF), tetapi dalam pembelajaran mesin, kami menggunakan regularisasi untuk pemilihan fitur dan sepertinya tidak memeriksa apakah fitur berkorelasi sama...
Regularisasi menggunakan metode seperti Ridge, Lasso, ElasticNet cukup umum untuk regresi linier. Saya ingin tahu yang berikut: Apakah metode ini berlaku untuk regresi logistik? Jika demikian, apakah ada perbedaan dalam cara mereka perlu digunakan untuk regresi logistik? Jika metode ini tidak dapat...
Momentum digunakan untuk mengurangi fluktuasi perubahan berat selama iterasi berurutan:αα\alpha Δ ωsaya( t + 1 ) =- η∂E∂wsaya+ α Δωsaya( t ) ,Δωsaya(t+1)=-η∂E∂wsaya+αΔωsaya(t),\Delta\omega_i(t+1) = - \eta\frac{\partial E}{\partial w_i} + \alpha \Delta \omega_i(t), mana adalah fungsi kesalahan, -...
Saya mengalami beberapa masalah dengan derivasi solusi untuk regresi ridge. Saya tahu solusi regresi tanpa ketentuan regularisasi: β=(XTX)−1XTy.β=(XTX)−1XTy.\beta = (X^TX)^{-1}X^Ty. Tetapi setelah menambahkan istilah L2 ke fungsi biaya, mengapa solusinya
Apakah ada studi empiris yang membenarkan penggunaan satu aturan kesalahan standar yang mendukung kekikiran? Jelas itu tergantung pada proses data-data, tetapi apa pun yang menganalisis kumpulan data besar akan menjadi bacaan yang sangat menarik. "Satu aturan kesalahan standar" diterapkan ketika...
Pada halaman 223 dalam Pengantar Pembelajaran Statistik , penulis merangkum perbedaan antara regresi ridge dan laso. Mereka memberikan contoh (Gambar 6.9) ketika "laso cenderung mengungguli regresi ridge dalam hal bias, varians, dan MSE". Saya mengerti mengapa laso diinginkan: ini menghasilkan...
Suatu masalah yang sering saya lihat dalam konteks Neural Networks pada umumnya, dan Deep Neural Networks pada khususnya, adalah bahwa mereka "lapar data" - yaitu mereka tidak berkinerja baik kecuali kita memiliki kumpulan data yang besar untuk melatih jaringan. Pemahaman saya adalah bahwa ini...
Saya hanya ingin tahu mengapa biasanya hanya ada regularisasi norma dan . Apakah ada bukti mengapa ini lebih baik?L
Saya mencoba untuk menyesuaikan model regresi linier multivariat dengan sekitar 60 variabel prediktor dan 30 pengamatan, jadi saya menggunakan paket glmnet untuk regresi yang diatur karena p> n. Saya telah melalui dokumentasi dan pertanyaan lain tetapi saya masih belum dapat menginterpretasikan...
Apakah regularisasi jaring elastis selalu lebih disukai daripada Lasso & Ridge karena tampaknya mengatasi kelemahan dari metode ini? Apa intuisi dan apa matematika di balik jaring
Bagaimana metode ridge, LASSO, dan elasticnet regularisasi dibandingkan? Apa kelebihan dan kekurangan masing-masing? Makalah teknis yang baik, atau catatan kuliah akan dihargai juga.
Adakah yang bisa merekomendasikan penjelasan yang baik tentang teori di balik regresi kuadrat terkecil parsial (tersedia online) untuk seseorang yang memahami SVD dan PCA? Saya telah melihat banyak sumber online dan belum menemukan apa pun yang memiliki kombinasi yang tepat antara ketelitian dan...
Regularisasi Tikhonov dan regresi ridge adalah istilah yang sering digunakan seolah-olah mereka identik. Apakah mungkin untuk menentukan dengan tepat apa