Pertanyaan ini mungkin bodoh, tetapi saya perhatikan bahwa ada dua formulasi berbeda dari regresi Lasso . Kita tahu bahwa masalah Lasso adalah untuk meminimalkan tujuan yang terdiri dari kerugian kuadrat ditambah hukuman penalti -1, dinyatakan sebagai berikut,
Tetapi sering kali saya melihat estimator Lasso dapat ditulis sebagai
Pertanyaan saya adalah, apakah setara? Di mana istilah masuk? Koneksi antara kedua formulasi tidak jelas bagi saya.
[Pembaruan] Saya kira pertanyaan anther yang harus saya tanyakan adalah,
Mengapa ada formulasi kedua? Apa keuntungan, secara teori atau komputasi, dari merumuskan masalah seperti itu?
Jawaban:
Mereka memang setara karena Anda selalu dapat menskala ulang (lihat juga komentar @ whuber). Dari perspektif teoretis, ini masalah kenyamanan tetapi sejauh yang saya tahu itu tidak perlu. Dari perspektif komputasi, saya benar-benar menemukan cukup menjengkelkan, jadi saya biasanya menggunakan formulasi pertama jika saya merancang algoritma yang menggunakan regularisasi.λ 1/(2n)
Sedikit latar belakang: Ketika saya pertama kali belajar tentang metode hukuman, saya merasa kesal membawa ke mana-mana dalam pekerjaan saya, jadi saya lebih suka mengabaikannya - bahkan menyederhanakan beberapa perhitungan saya. Pada waktu itu pekerjaan saya terutama komputasi. Baru-baru ini saya telah melakukan pekerjaan teoritis, dan saya telah menemukan sangat diperlukan (bahkan vs, katakanlah, ).1/(2n) 1/(2n) 1/n
Lebih detail: Ketika Anda mencoba menganalisis perilaku Lasso sebagai fungsi dari ukuran sampel , Anda sering harus berurusan dengan jumlah variabel acak iid, dan dalam praktiknya umumnya lebih mudah untuk menganalisis jumlah tersebut setelah dinormalisasi dengan - -Pikirkan hukum bilangan besar / teorema limit pusat (atau jika Anda ingin disukai, konsentrasi ukuran dan teori proses empiris). Jika Anda tidak memiliki jangka waktu di depan kerugian, Anda akhirnya berakhir dengan menabung sesuatu di akhir analisis sehingga umumnya lebih baik untuk memilikinya di sana untuk memulai. The nyaman karena membatalkan beberapa faktor yang mengganggu darin n 1/n 1/2 2 dalam analisis (misalnya ketika Anda mengambil turunan dari istilah kerugian kuadrat).
Cara lain untuk memikirkan hal ini adalah ketika melakukan teori, kita umumnya tertarik pada perilaku solusi ketika bertambah - yaitu, bukan kuantitas tetap. Dalam prakteknya, ketika kita menjalankan Lasso pada beberapa dataset tetap, memang diperbaiki dari perspektif algoritma / perhitungan. Jadi memiliki faktor normalisasi ekstra di depan tidak terlalu membantu.n n n
Ini mungkin tampak seperti masalah kenyamanan yang mengganggu, tetapi setelah menghabiskan cukup banyak waktu memanipulasi ketidaksetaraan semacam ini, saya telah belajar untuk mencintai .1/(2n)
sumber