Sudah diketahui umum (misalnya dalam bidang penginderaan tekan) bahwa norma adalah "penginduksian sparsitas," dalam arti bahwa jika kita meminimalkan fungsional (untuk matriks tetap dan vektor ) untuk ukuran yang cukup besar \ lambda> 0 , kami cenderung untuk banyak pilihan A , \ vec {b} , dan \ lambda untuk memiliki banyak entri yang persis nol dalam hasil \ vec {x} . A → b f A , → b ( → x ) = ‖ A → x - → b ‖ 2 2 + λ ‖ → x ‖ 1 λ > 0 A → b λ → x
Tetapi jika kita meminimalkan dengan syarat bahwa entri positif dan jumlah ke , maka istilah tidak memiliki efek apa pun (karena oleh fiat). Apakah ada regulator tipe- L_1 analog yang berfungsi dalam kasus ini untuk mendorong bahwa \ vec {x} yang dihasilkan jarang?
regression
matrix
normalization
regularization
sparse
Justin Solomon
sumber
sumber
Jawaban:
Metode umum untuk membuat solusi jarang adalah melalui estimasi MAP dengan nol rata-rata normal sebelum dengan varian yang tidak diketahui.
Jika Anda kemudian menetapkan sebelum ke yang memiliki mode nol, maka mode posterior biasanya jarang. The muncul dari pendekatan ini dengan mengambil distribusi pencampuran eksponensial.σ2i L1
Lalu kamu dapatkan
Beberapa alternatif adalah pareto ganda umum, setengah cauchy, beta terbalik. Dalam beberapa hal ini lebih baik daripada laso karena mereka tidak menyusut nilai-nilai besar. Bahkan saya cukup yakin pareto ganda umum dapat ditulis sebagai campuran eksponensial. Kita menulis dan kemudian menempatkan gamma prior . Kita mendapatkan:λ=λi p(λi|αβ)
Perhatikan bahwa saya telah memasukkan konstanta normalisasi, karena konstanta membantu memilih parameter global yang baik. Sekarang jika kita menerapkan batasan rentang maka kita memiliki masalah yang lebih rumit, karena kita perlu mengganti normal atas simpleks.
Fitur generik lain dari sparsity yang menginduksi hukuman adalah bahwa mereka tidak dapat dibedakan dengan nol. Biasanya ini karena batas kiri dan kanan bertanda berlawanan.
Ini didasarkan pada karya brilian oleh Nicolas Polson dan James Scott pada representasi varians rata-rata yang mereka gunakan untuk mengembangkan TIRLS - perpanjangan besar kuadrat terkecil ke kelas yang sangat besar dari kombinasi penalti kalah.
Sebagai alternatif, Anda bisa menggunakan prior yang didefinisikan pada simplex, tetapi memiliki mode dalam distribusi marginal nol. Salah satu contoh adalah distribusi dirichlet dengan semua parameter antara 0 dan 1. Hukuman tersirat akan terlihat seperti:
Di mana . Namun Anda harus berhati-hati dalam mengoptimalkan secara numerik karena penalti memiliki singularitas. Proses estimasi yang lebih kuat adalah dengan menggunakan mean posterior. Meskipun Anda kehilangan kesederhanaan yang tepat Anda akan mendapatkan banyak sarana posterior yang dekat dengan nol0<ai<1
sumber
Dua pilihan:
sumber
Premis dari pertanyaan ini hanya sebagian yang benar. Meskipun memang benar bahwa -norm hanya konstan di bawah kendala, masalah optimisasi kendala mungkin memiliki solusi yang jarang.L1
Namun, solusinya tidak terpengaruh oleh pilihan , jadi ada solusi yang jarang atau tidak. Pertanyaan lain adalah bagaimana cara menemukan solusinya. Pengoptimal kuadratik standar di bawah batasan linear tentu saja dapat digunakan, tetapi algoritma penurunan koordinat populer tidak dapat digunakan di luar kotak.λ
Satu saran bisa saja dioptimalkan di bawah batasan positif saja, untuk berbeda , dan kemudian renormalkan solusi untuk memiliki -norm 1. Algoritma penurunan koordinat harus, saya percaya, mudah dimodifikasi untuk menghitung solusi di bawah positif. paksaan.L 1λ L1
sumber
Saya dapat memikirkan tiga metode.
Metode Bayesian: memperkenalkan distribusi nol-rata-rata sebelumnya dan menggunakan kemungkinan tipe II untuk memperkirakan parameter dan parameter hiper.
Gunakan sebagai regularisasi sebagai gantinya. Ini tidak bisa dibedakan sekalipun. Anda dapat menggunakan norma tingkat tinggi untuk memperkirakannya.∥⋅∥∞
Gunakan .−∑i=1logxi
Sebenarnya, metode pertama dan ketiga adalah sama.
sumber