Definisi dan Konvergensi Kuadrat Terkecil yang Diterima Ulang secara berulang

16

Saya telah menggunakan iteratively reweighted least square (IRLS) untuk meminimalkan fungsi dari formulir berikut,

J(m)=i=1Nρ(|xim|)

di mana adalah jumlah instance , adalah perkiraan kuat yang saya inginkan, dan adalah fungsi penalti kuat yang cocok. Katakanlah itu cembung (meskipun tidak harus ketat) dan dapat dibedakan untuk saat ini. Sebuah contoh yang baik dari seperti adalah fungsi kerugian Huber .NxiRmRρρ

Apa yang saya lakukan adalah membedakan sehubungan dengan (dan memanipulasi) untuk mendapatkan,J(m)m

dJdm=i=1Nρ(|xim|)|xim|(xim)

dan menyelesaikannya secara iteratif dengan menyetelnya sama dengan 0 dan menetapkan bobot pada iterasi ke (perhatikan bahwa singularitas yang dirasakan di x_i = m {(k)} benar-benar singularitas yang dapat dilepas dalam semua \ rho yang mungkin saya pedulikan). Lalu saya mendapatkan,kwi(k)=ρ(|xim(k)|)|xim(k)|xi=m(k)ρ

i=1Nwi(k)(xim(k+1))=0

dan saya pecahkan untuk memperoleh, m(k+1)=i=1Nwi(k)xii=1Nwi(k) .

Saya ulangi algoritma titik tetap ini sampai "konvergensi". Saya akan mencatat bahwa jika Anda sampai ke titik tetap, Anda optimal, karena turunan Anda adalah 0 dan itu adalah fungsi cembung.

Saya punya dua pertanyaan tentang prosedur ini:

  1. Apakah ini algoritma IRLS standar? Setelah membaca beberapa makalah tentang topik (dan mereka sangat tersebar dan tidak jelas tentang apa itu IRLS), ini adalah definisi algoritma yang paling konsisten yang dapat saya temukan. Saya dapat memposting makalah jika orang mau, tetapi saya sebenarnya tidak ingin bias siapa pun di sini. Tentu saja, Anda dapat menggeneralisasi teknik dasar ini ke banyak jenis masalah lain yang melibatkan vektor xi dan argumen selain |xim(k)|, memberikan argumen adalah norma dari fungsi affine dari parameter Anda. Setiap bantuan atau wawasan akan sangat bagus dalam hal ini.
  2. Konvergensi tampaknya berhasil dalam praktiknya, tetapi saya memiliki beberapa kekhawatiran tentangnya. Saya belum melihat buktinya. Setelah beberapa simulasi Matlab sederhana saya melihat bahwa satu iterasi dari ini bukan pemetaan kontraksi (saya menghasilkan dua contoh acak dari dan menghitung dan melihat bahwa ini kadang-kadang lebih besar dari 1). Juga pemetaan yang didefinisikan oleh beberapa iterasi berurutan tidak sepenuhnya pemetaan kontraksi, tetapi probabilitas konstanta Lipschitz berada di atas 1 menjadi sangat rendah. Jadi apakah ada dugaan pemetaan kontraksi dalam probabilitas ? Apa mesin yang saya gunakan untuk membuktikan bahwa ini bertemu? Apakah itu bahkan bertemu?m|m1(k+1)m2(k+1)||m1(k)m2(k)|

Bimbingan apa pun sangat membantu.

Sunting: Saya suka kertas pada IRLS untuk pemulihan yang jarang / penginderaan tekan oleh Daubechies et al. 2008 "Minimalisasi Ulang Kuadrat Kuadrat Minimal untuk Pemulihan Jarang" pada arXiv. Tetapi tampaknya sebagian besar fokus pada bobot untuk masalah nonconvex. Kasus saya jauh lebih sederhana.

Chris A.
sumber
Melihat halaman wiki di IRWLS Saya perjuangan untuk perbedaan antara prosedur Anda menggambarkan dan IRWLS (mereka hanya menggunakan sebagai mereka khususnya fungsi). Bisakah Anda jelaskan dengan cara apa menurut Anda algoritma yang Anda usulkan berbeda dari IRWLS? ρ|yixxiββ|2ρ
user603
Saya tidak pernah menyatakan bahwa itu berbeda, dan jika saya menyiratkannya, saya tidak bermaksud demikian.
Chris A.

Jawaban:

10

Adapun pertanyaan pertama Anda, seseorang harus mendefinisikan "standar", atau mengakui bahwa "model kanonik" telah secara bertahap ditetapkan. Seperti komentar yang ditunjukkan, tampaknya setidaknya cara Anda menggunakan IRWLS agak standar.

Adapun pertanyaan kedua Anda, "pemetaan kontraksi dalam probabilitas" dapat dihubungkan (namun secara informal) dengan konvergensi "algoritma stokastik rekursif". Dari apa yang saya baca, ada literatur besar tentang masalah ini terutama di bidang Teknik. Dalam Ekonomi, kami menggunakan sedikit saja, terutama karya mani Lennart Ljung - makalah pertama adalah Ljung (1977) - yang menunjukkan bahwa konvergensi (atau tidak) dari algoritma stokastik rekursif dapat ditentukan oleh stabilitas (atau tidak) dari persamaan diferensial biasa yang terkait.

(Berikut ini telah kembali bekerja setelah diskusi bermanfaat dengan OP di komentar)

Konvergensi

Saya akan menggunakan sebagai referensi Sabre Elaydi "An Introduction to Difference Equations", 2005, 3d ed. Analisis ini tergantung pada beberapa sampel data yang diberikan, sehingga diperlakukan sebagai tetap. xs

Kondisi orde pertama untuk minimalisasi fungsi objektif, dipandang sebagai fungsi rekursif dalam , m ( k + 1 ) = N i = 1 v i [ m ( k ) ] x i ,m

m(k+1)=i=1Nvi[m(k)]xi,vi[m(k)]wi[m(k)]i=1Nwi[m(k)][1]

memiliki titik tetap (argumen fungsi objektif). Oleh Teorema 1.13 hal 27-28 dari Elaydi, jika turunan pertama sehubungan dengan dari RHS , dievaluasi pada titik tetap , menyatakannya , lebih kecil dari kesatuan dalam nilai absolut, maka adalah stabil asimtotik (AS). Terlebih lagi oleh Theorem 4.3 hal.179 kita memiliki bahwa ini juga menyiratkan bahwa titik tetap adalah seragam AS (UAS). "Asymptotically stable" berarti bahwa untuk beberapa rentang nilai di sekitar titik tetap, sebuah lingkungan , tidak harus berukuran kecil, titik tetapnya menarik[ 1 ] m A ( m ) m ( m ± γ ) γ = m[1]mA(m)m
(m±γ), dan jika algoritme memberikan nilai di lingkungan ini, ia akan bertemu. Properti menjadi "seragam", berarti bahwa batas lingkungan ini, dan karenanya ukurannya, tidak tergantung pada nilai awal algoritma. Titik tetap menjadi UAS global , jika . Jadi dalam kasus kami, jika kami membuktikannyaγ=

|A(m)||i=1Nvi(m)mxi|<1[2]

kami telah membuktikan properti UAS, tetapi tanpa konvergensi global. Kemudian kita dapat mencoba untuk menetapkan bahwa lingkungan tarik-menarik sebenarnya adalah bilangan real keseluruhan yang diperluas, atau, bahwa nilai awal spesifik yang digunakan OP seperti yang disebutkan dalam komentar (dan itu adalah standar dalam metodologi IRLS), yaitu sampel rata-rata dari 's, , selalu milik lingkungan atraksi titik tetap.ˉ xxx¯

Kami menghitung turunan

vi(m)m=wi(m)mi=1Nwi(m)wi(m)i=1Nwi(m)m(i=1Nwi(m))2

=1i=1Nwi(m)[wi(m)mvi(m)i=1Nwi(m)m]
Kemudian

A(m)=1i=1Nwi(m)[i=1Nwi(m)mxi(i=1Nwi(m)m)i=1Nvi(m)xi]

=1i=1Nwi(m)[i=1Nwi(m)mxi(i=1Nwi(m)m)m]

dan

|A(m)|<1|i=1Nwi(m)m(xim)|<|i=1Nwi(m)|[3]

kita punya

wi(m)m=ρ(|xim|)xim|xim||xim|+xim|xim|ρ(|xim|)|xim|2=xim|xim|3ρ(|xim|)ρ(|xim|)xim|xim|2=xim|xim|2[ρ(|xim|)|xim|ρ(|xim|)]=xim|xim|2[wi(m)ρ(|xim|)]

Memasukkan ini ke kita miliki[3]

|i=1Nxim|xim|2[wi(m)ρ(|xim|)](xim)|<|i=1Nwi(m)|

|i=1Nwi(m)i=1Nρ(|xim|)|<|i=1Nwi(m)|[4]

Ini adalah kondisi yang harus dipenuhi untuk titik tetap menjadi UAS. Karena dalam kasus kami fungsi penalti adalah cembung, jumlah yang terlibat adalah positif. Jadi kondisi setara dengan[4]

i=1Nρ(|xim|)<2i=1Nwi(m)[5]

Jika adalah fungsi kerugian Hubert, maka kita memiliki cabang kuadratik ( ) dan linear ( ),ρ(|xim|)ql

ρ(|xim|)={(1/2)|xim|2|xim|δδ(|xim|δ/2)|xim|>δ

dan

ρ(|xim|)={|xim||xim|δδ|xim|>δ

ρ(|xim|)={1|xim|δ0|xim|>δ

{wi,q(m)=1|xim|δwi,l(m)=δ|xim|<1|xim|>δ

Karena kita tidak tahu berapa banyak kami di cabang kuadratik dan berapa banyak dalam linier, kami menguraikan kondisi sebagai ( )|xim|[5]Nq+Nl=N

i=1Nqρq+i=1Nlρl<2[i=1Nqwi,q+i=1Nlwi,l]

Nq+0<2[Nq+i=1Nlwi,l]0<Nq+2i=1Nlwi,l

yang berlaku. Jadi untuk fungsi loss Huber titik tetap dari algoritma secara seragam asymptotically stable, terlepas dari 's. Kami mencatat bahwa turunan pertama lebih kecil dari satu dalam nilai absolut untuk setiap , bukan hanya titik tetap. xm

Apa yang harus kita lakukan sekarang adalah membuktikan bahwa properti UAS juga bersifat global, atau jika maka termasuk dalam lingkungan atraksi .m(0)=x¯m(0)m

Alecos Papadopoulos
sumber
Terima kasih atas tanggapannya. Beri saya waktu untuk menganalisis jawaban ini.
Chris A.
Pasti. Lagi pula, pertanyaannya menunggu 20 bulan.
Alecos Papadopoulos
Ya, saya teringat masalah dan memutuskan untuk memberikan hadiah. :)
Chris A.
Beruntung saya. Saya tidak ada di sana 20 bulan yang lalu - saya akan menjawab pertanyaan ini, hadiah atau tidak.
Alecos Papadopoulos
Terima kasih banyak atas tanggapan ini. Sepertinya, sejauh ini, Anda telah mendapatkan hadiah. BTW, pengindeksan Anda pada turunan dari wrt aneh. Tidak bisakah penjumlahan pada baris kedua ini menggunakan variabel lain, seperti ? vimj
Chris A.