Regulatorisasi yang menginduksi sparsitas untuk matriks stokastik

10

Sudah diketahui umum (misalnya dalam bidang penginderaan tekan) bahwa norma adalah "penginduksian sparsitas," dalam arti bahwa jika kita meminimalkan fungsional (untuk matriks tetap dan vektor ) untuk ukuran yang cukup besar \ lambda> 0 , kami cenderung untuk banyak pilihan A , \ vec {b} , dan \ lambda untuk memiliki banyak entri yang persis nol dalam hasil \ vec {x} . A b f A , b ( x ) = A x - b2 2 + λ x1 λ > 0 A b λ xL1Ab

fA,b(x)=Axb22+λx1
λ>0Abλx

Tetapi jika kita meminimalkan fA,b dengan syarat bahwa entri x positif dan jumlah ke 1 , maka istilah L1 tidak memiliki efek apa pun (karena x1=1 oleh fiat). Apakah ada regulator tipe- L_1 analog L1yang berfungsi dalam kasus ini untuk mendorong bahwa \ vec {x} yang dihasilkan xjarang?

Justin Solomon
sumber
Bisakah Anda menguraikan "maka istilah L1 tidak memiliki efek apa pun (karena ||x||1=1 oleh fiat)"?
Cam.Davidson.Pilon
2
@ Cam.Davidson.Pilon: xi0 dan ixi=1 menyiratkan x1=1 . :)
kardinal
1
Justin: Beberapa perincian lagi mungkin memberi peluang yang lebih baik pada jawaban yang bermanfaat. Berikut adalah beberapa pertanyaan yang segera muncul setelah membaca deskripsi Anda: ( 1 ) Di mana "matriks stokastik" dalam semua ini? Anda sepertinya hanya menggambarkan situasi yang melibatkan vektor stokastik . Ini bisa saja berupa baris individual dari matriks stokastik Anda, atau struktur lain mungkin menjadi jelas setelah lebih banyak detail hadir. ( 2 ) Anda ingin probabilitas itu sendiri jarang, atau mungkin, jarang dalam dasar yang tepat? Jika dulu, mengapa? (Apakah ini beberapa jalan acak pada grafik berbobot (jarang)?)
kardinal
Mengapa Anda mengharuskan entri dari yang positif ? Haruskah Anda malah meminta mereka tidak negatif ? Juga, sudahkah Anda mempertimbangkan re-parameterisasi untuk menghilangkan kendala (dengan asumsi maksud Anda non-negatif)? Dengan kata lain, cobaxxi=exp(wi)jexp(wj)
jrennie
1
@rennie: Mengingat konteksnya, Justin yang positif pastilah berarti tidak negatif .
kardinal

Jawaban:

2

Metode umum untuk membuat solusi jarang adalah melalui estimasi MAP dengan nol rata-rata normal sebelum dengan varian yang tidak diketahui.

p(xi|σi2)N(0,σi2)

Jika Anda kemudian menetapkan sebelum ke yang memiliki mode nol, maka mode posterior biasanya jarang. The muncul dari pendekatan ini dengan mengambil distribusi pencampuran eksponensial.σi2L1

p(σi2|λ)Expo(λ22)

Lalu kamu dapatkan

log[p(xi|λ)]=λ|xi|+log[λ2]

Beberapa alternatif adalah pareto ganda umum, setengah cauchy, beta terbalik. Dalam beberapa hal ini lebih baik daripada laso karena mereka tidak menyusut nilai-nilai besar. Bahkan saya cukup yakin pareto ganda umum dapat ditulis sebagai campuran eksponensial. Kita menulis dan kemudian menempatkan gamma prior . Kita mendapatkan:λ=λip(λi|αβ)

p(xi|αβ)=α2β(1+|xi|β)(α+1)

Perhatikan bahwa saya telah memasukkan konstanta normalisasi, karena konstanta membantu memilih parameter global yang baik. Sekarang jika kita menerapkan batasan rentang maka kita memiliki masalah yang lebih rumit, karena kita perlu mengganti normal atas simpleks.

Fitur generik lain dari sparsity yang menginduksi hukuman adalah bahwa mereka tidak dapat dibedakan dengan nol. Biasanya ini karena batas kiri dan kanan bertanda berlawanan.

Ini didasarkan pada karya brilian oleh Nicolas Polson dan James Scott pada representasi varians rata-rata yang mereka gunakan untuk mengembangkan TIRLS - perpanjangan besar kuadrat terkecil ke kelas yang sangat besar dari kombinasi penalti kalah.

Sebagai alternatif, Anda bisa menggunakan prior yang didefinisikan pada simplex, tetapi memiliki mode dalam distribusi marginal nol. Salah satu contoh adalah distribusi dirichlet dengan semua parameter antara 0 dan 1. Hukuman tersirat akan terlihat seperti:

i=1n1(ai1)log(xi)(an1)log(1i=1n1xi)

Di mana . Namun Anda harus berhati-hati dalam mengoptimalkan secara numerik karena penalti memiliki singularitas. Proses estimasi yang lebih kuat adalah dengan menggunakan mean posterior. Meskipun Anda kehilangan kesederhanaan yang tepat Anda akan mendapatkan banyak sarana posterior yang dekat dengan nol0<ai<1

probabilityislogic
sumber
Ini sepertinya ide yang sangat menarik, meskipun kami tidak cukup memahami rinciannya! Jika saya mengerti dengan benar, idenya adalah bahwa sebelumnya berasal dari asumsi bahwa variabel mengikuti distribusi eksponensial sekitar 0. Jadi, kita membutuhkan distribusi yang berpusat pada 0 yang bekerja lebih baik untuk variabel kita. Tapi, tidak ada pemenang yang jelas, bukan? Apakah ada distribusi di atas "variabel positif yang berjumlah 1"? Terima kasih atas bantuan Anda! L1
Justin Solomon
Untuk mendapatkan sparsity, Anda memerlukan distribusi dengan mode di nol. Dan distribusi dirichlet lebih dari simpleks, yang tepatnya adalah distribusi yang berjumlah 1. Kelas umum lain adalah logistik-normal atau logistik t di mana Anda memiliki distribusi normal / t untuklog[xixn]
probabilityislogic
Ah, Dirichlet tampaknya cukup menarik karena ada di simpleks yang kami minati, seperti yang Anda sebutkan! Tampaknya dua lainnya yang Anda sebutkan mungkin memperkenalkan beberapa asimetri pada , kan? Kolaborator saya dan saya akan bekerja melalui fungsi energi yang tersirat oleh Dirichlet besok dan akan melaporkan kembali! Terima kasih banyak atas bantuan pasien Anda sejauh ini - ini jauh dari bidang yang biasa kami lakukan, tetapi jika kami dapat mengatasinya, hasilnya dapat memberikan langkah maju dalam pemrosesan geometri! [Dan tentu saja kami akan memberi Anda kredit jatuh tempo!]xn
Justin Solomon
1

Dua pilihan:

  1. Gunakan penalti pada . Kelemahan yang jelas adalah bahwa ini nonconvex dan karenanya sulit untuk dioptimalkan.xL0x
  2. Reparameterize, dan gunakan penalti pada vektor parameter baru (alami),. Ini akan mendorong kejadian menjadi sama kemungkinan kecuali ada alasan yang baik bagi mereka untuk tidak melakukannya.wxi=exp(wi)jexp(wj)w
Jeannie
sumber
Bisakah Anda menjelaskan bagaimana reparametrization Anda mendorong sparsity? Tampaknya agak menjamin sebaliknya.
kardinal
Ini mendorong sparsity dalam yang sesuai dengan mendorong entri yang berbeda dari untuk memiliki nilai yang sama. xwx
jrennie
Ya aku mengerti itu. Namun, nilai-nilai itu tidak akan menjadi nol. Jika kita menggunakan OP secara harfiah, ini tidak akan membantu dan akan benar-benar "sakit" (dalam arti tertentu). Tapi, ada kemungkinan OP tertarik pada sparsity sehubungan dengan beberapa dasar lain, dalam hal ini, ini akan menjadi salah satunya. :)
kardinal
Itu sebabnya saya memberikan dua opsi dalam jawaban saya --- Saya pikir hukuman nonkonversi diperlukan untuk mendorong angka nol di . Seperti yang Anda catat, Justin kemungkinan tidak berarti secara harfiah apa yang dikatakannya. x
jrennie
Ya, sayangnya kita perlu sparsity dalam basis identitas. Jadi dalam hal ini kami ingin sebanyak mungkin sama dengan . - wi
Justin Solomon
1

Premis dari pertanyaan ini hanya sebagian yang benar. Meskipun memang benar bahwa -norm hanya konstan di bawah kendala, masalah optimisasi kendala mungkin memiliki solusi yang jarang.L1

Namun, solusinya tidak terpengaruh oleh pilihan , jadi ada solusi yang jarang atau tidak. Pertanyaan lain adalah bagaimana cara menemukan solusinya. Pengoptimal kuadratik standar di bawah batasan linear tentu saja dapat digunakan, tetapi algoritma penurunan koordinat populer tidak dapat digunakan di luar kotak.λ

Satu saran bisa saja dioptimalkan di bawah batasan positif saja, untuk berbeda , dan kemudian renormalkan solusi untuk memiliki -norm 1. Algoritma penurunan koordinat harus, saya percaya, mudah dimodifikasi untuk menghitung solusi di bawah positif. paksaan.L 1λL1

NRH
sumber
0

Saya dapat memikirkan tiga metode.

  • Metode Bayesian: memperkenalkan distribusi nol-rata-rata sebelumnya dan menggunakan kemungkinan tipe II untuk memperkirakan parameter dan parameter hiper.

  • Gunakan sebagai regularisasi sebagai gantinya. Ini tidak bisa dibedakan sekalipun. Anda dapat menggunakan norma tingkat tinggi untuk memperkirakannya.

  • Gunakan .i=1logxi

Sebenarnya, metode pertama dan ketiga adalah sama.

Han Zhang
sumber