Koneksi antara formulasi Lasso

9

Pertanyaan ini mungkin bodoh, tetapi saya perhatikan bahwa ada dua formulasi berbeda dari regresi Lasso . Kita tahu bahwa masalah Lasso adalah untuk meminimalkan tujuan yang terdiri dari kerugian kuadrat ditambah hukuman penalti -1, dinyatakan sebagai berikut, L

minβyXβ22+λβ1

Tetapi sering kali saya melihat estimator Lasso dapat ditulis sebagai

β^n(λ)=argminβ{12nyXβ22+λβ1}

Pertanyaan saya adalah, apakah setara? Di mana istilah 12n masuk? Koneksi antara kedua formulasi tidak jelas bagi saya.

[Pembaruan] Saya kira pertanyaan anther yang harus saya tanyakan adalah,

Mengapa ada formulasi kedua? Apa keuntungan, secara teori atau komputasi, dari merumuskan masalah seperti itu?

Aaron Zeng
sumber
2
Jika Anda menetapkan dalam formulasi kedua sama dengan kali dalam formulasi pertama, maka fungsi tujuan dalam formulasi kedua adalah kali fungsi objektif dalam formulasi pertama. Akibatnya, Anda hanya mengubah unit pengukuran kerugian. Menurut Anda bagaimana hal itu akan mengubah nilai optimal dari ? λ1/(2n)λ1/(2n)β
whuber
Terima kasih, @Whuber. Itu masuk akal bagi saya. Lalu mengapa ada formulasi yang terakhir? Apa keuntungan, secara teori atau komputasi, dari merumuskan masalah seperti itu?
Aaron Zeng

Jawaban:

10

Mereka memang setara karena Anda selalu dapat menskala ulang (lihat juga komentar @ whuber). Dari perspektif teoretis, ini masalah kenyamanan tetapi sejauh yang saya tahu itu tidak perlu. Dari perspektif komputasi, saya benar-benar menemukan cukup menjengkelkan, jadi saya biasanya menggunakan formulasi pertama jika saya merancang algoritma yang menggunakan regularisasi.λ1/(2n)

Sedikit latar belakang: Ketika saya pertama kali belajar tentang metode hukuman, saya merasa kesal membawa ke mana-mana dalam pekerjaan saya, jadi saya lebih suka mengabaikannya - bahkan menyederhanakan beberapa perhitungan saya. Pada waktu itu pekerjaan saya terutama komputasi. Baru-baru ini saya telah melakukan pekerjaan teoritis, dan saya telah menemukan sangat diperlukan (bahkan vs, katakanlah, ).1/(2n)1/(2n)1/n

Lebih detail: Ketika Anda mencoba menganalisis perilaku Lasso sebagai fungsi dari ukuran sampel , Anda sering harus berurusan dengan jumlah variabel acak iid, dan dalam praktiknya umumnya lebih mudah untuk menganalisis jumlah tersebut setelah dinormalisasi dengan - -Pikirkan hukum bilangan besar / teorema limit pusat (atau jika Anda ingin disukai, konsentrasi ukuran dan teori proses empiris). Jika Anda tidak memiliki jangka waktu di depan kerugian, Anda akhirnya berakhir dengan menabung sesuatu di akhir analisis sehingga umumnya lebih baik untuk memilikinya di sana untuk memulai. The nyaman karena membatalkan beberapa faktor yang mengganggu darinn1/n1/22 dalam analisis (misalnya ketika Anda mengambil turunan dari istilah kerugian kuadrat).

Cara lain untuk memikirkan hal ini adalah ketika melakukan teori, kita umumnya tertarik pada perilaku solusi ketika bertambah - yaitu, bukan kuantitas tetap. Dalam prakteknya, ketika kita menjalankan Lasso pada beberapa dataset tetap, memang diperbaiki dari perspektif algoritma / perhitungan. Jadi memiliki faktor normalisasi ekstra di depan tidak terlalu membantu.nnn

Ini mungkin tampak seperti masalah kenyamanan yang mengganggu, tetapi setelah menghabiskan cukup banyak waktu memanipulasi ketidaksetaraan semacam ini, saya telah belajar untuk mencintai .1/(2n)

JohnA
sumber
3
Begitu Anda menyadari untuk apa konstanta normalisasi itu, Anda mulai melihatnya di mana - mana .
Matthew Drury
Terima kasih atas penjelasannya. Kami sangat bangga membaca pengalaman hebat Anda di domain ini. Sekali lagi terima kasih
Christina