Apakah diketahui bahwa beberapa masalah pengoptimalan setara dengan loncatan waktu?

19

Diberikan keadaan yang diinginkan y0 dan parameter regularisasi , pertimbangkan masalah menemukan keadaan dan kontrol untuk meminimalkan fungsional tunduk pada kendala \ begin {persamaan} Ay = u. \ end {persamaan} di mana untuk kesederhanaan kita dapat memikirkan y, y_0, u \ in \ mathbb R ^ n dan A \ in \ mathbb R ^ {n \ kali n} . y u 1βRykamuAy=u. y,y0,uRnARn×n

12y-y02+β2kamu2
SEBUAHy=kamu.
y,y0,kamuRnSEBUAHRn×n

Membentuk Lagrangian, mencari titik stasioner, dan menghilangkan kontrol kamu kita mendapatkan kondisi orde pertama

SEBUAHTλ=y0-ySEBUAHy=1βλ
Premultiplying oleh SEBUAH pada persamaan pertama dan SEBUAHT di persamaan kedua, kita dapat menulis persamaan normal
(saya+βSEBUAHSEBUAHT)λ=βSEBUAHy0(saya+βSEBUAHTSEBUAH)y=y0
Kita dapat menafsirkan ini sebagai langkah tunggal perkiraan Euler mundur ke persamaan diferensial
λb=-SEBUAHSEBUAHTλ+SEBUAHy0,λ(0)=0yb=-SEBUAHTSEBUAHy,y(0)=y0
dengan pseudotimestep β .

Pertanyaan saya: Apakah koneksi ini terkenal? Apakah ini dibahas dalam perawatan standar baik pencatat waktu atau optimasi? (Bagi saya, sepertinya memberikan semacam koneksi intuitif di antara mereka.)

Gagasan itu tampaknya cukup sederhana sehingga harus diketahui dengan baik, tetapi tidak mencari literatur atau berbicara dengan orang-orang telah memberi saya sumber yang baik di mana ini dibahas. Yang paling dekat yang saya temukan adalah makalah oleh O. Scherzer dan J. Weichert (J. Math Imaging Vision 12 (2000) hal. 43-63) yang menyatakan hubungan dalam kalimat pertama dari abstrak (!) Tetapi tidak memberikan referensi atau menjelajahi koneksi secara mendalam.

Idealnya saya mencari referensi yang tidak hanya menyatakan koneksi tetapi juga mengeksplorasi beberapa konsekuensi (misalnya, orang bisa membayangkan memprakondisi masalah optimasi dengan langkah Euler maju yang murah).

Andrew T. Barker
sumber
1
Secara umum (dan seperti yang mungkin sudah Anda ketahui), pendekatan pseudo-time stepping adalah metode yang terkenal untuk memecahkan persamaan aljabar (seperti sistem KKT yang Anda gambarkan), dengan melemparkan masalah sebagai menemukan kondisi stabil dari serangkaian ODE di mana variabel waktu adalah pseudo-time. Namun, saya tidak mengetahui adanya koneksi spesifik yang terkait dengan instance spesifik dari kondisi KKT dengan satu langkah mundur Euler.
Geoff Oxberry
Sebagai tambahan, Anda hanya perlu menyelesaikan salah satu dari dua ODE, karena Anda dapat menggunakan salah satu dari kondisi yang diperlukan urutan pertama untuk menghitung, misalnya, dari . λyλ
Christian Clason

Jawaban:

17

Seperti yang disebutkan Jed Brown, hubungan antara penurunan gradien dalam optimasi nonlinier dan loncatan waktu dari sistem dinamis ditemukan kembali dengan beberapa frekuensi (dapat dimengerti, karena ini adalah koneksi yang sangat memuaskan dengan pikiran matematika karena menghubungkan dua bidang yang tampaknya berbeda). Namun, ini jarang menjadi koneksi yang bermanfaat , terutama dalam konteks yang Anda gambarkan.

Dalam masalah terbalik, orang yang tertarik dalam memecahkan persamaan operator (ill-posed) dengan tidak di kisaran . (Masalah kontrol optimal Anda dapat dilihat sebagai satu contoh dengan dan .) Beberapa strategi regularisasi (seperti Tikhonov atau Landweber) dapat diartikan sebagai waktu semu tunggal langkah kelas tertentu. Idenya adalah untuk menggunakan interpretasi dari parameter regularisasi sebagai panjang langkah untuk mendapatkan beberapa aturan pilihan (adaptif, a posteriori) untuk parameter - masalah mendasar dalam masalah terbalik - dan mungkin membuat beberapa langkah waktu semu untuk mendekati solusi sejati yang tidak diatur (mirip dengany δ F F = A - 1 y δ = y 0F(kamu)=yδyδFF=SEBUAH-1yδ=y0kelanjutan numerik ). Ini kadang-kadang disebut regularisasi berkelanjutan , dan biasanya dibahas dalam konteks metode level set; lihat, misalnya, Bab 6.1 dari Kaltenbacher, Scherzer, Neubauer: Metode Regularisasi Iteratif untuk Masalah-Masalah Non-Linier yang Berpose Tidak Benar (de Gruyter, 2008).

Konteks kedua ide ini berulang kali muncul adalah optimasi nonlinier: Jika Anda melihat langkah penurunan gradien untuk , maka Anda dapat menafsirkan ini sebagai maju Euler langkah untuk sistem dinamik Seperti yang Jed Brown tunjukkan, pada pandangan pertama ini hanya menghasilkan pengamatan yang tidak terlalu mengejutkan bahwa metode ini bertemu, asalkan langkah pseudo-time cukup kecil. Bagian yang menarik datang ketika Anda melihat sistem dinamis dan bertanya pada diri sendiri apa sifat solusi kontinu dari apa yang disebut aliran gradienx k + 1 = x k - γ kf ( x k ) , ˙ x ( t ) = - f ( x ( t ) ) ,minxf(x)

xk+1=xk-γkf(xk),
γ k x ( t )
x˙(t)=-f(x(t)),x(0)=x0.
γkx(t)memiliki (atau seharusnya memiliki), independen dari penurunan gradien, dan apakah itu mungkin tidak mengarah pada waktu yang lebih tepat melangkah (dan karenanya optimasi) metode daripada standar Euler. Beberapa contoh dari atas kepala saya:
  1. Apakah ada ruang fungsi alami di mana aliran gradien hidup? Jika demikian, langkah gradien Anda harus diambil dari ruang yang sama (yaitu, diskritisasi harus sesuai). Ini mengarah, misalnya, untuk menghitung representasi Riesz dari gradien sehubungan dengan produk dalam yang berbeda (kadang-kadang disebut gradien Sobolev ) dan, dalam praktiknya, untuk iterasi yang dikondisikan sebelumnya yang konvergen yang jauh lebih cepat.

  2. Mungkin seharusnya bukan milik ruang vektor, tetapi untuk manifold (misalnya, matriks pasti positif simetris), atau aliran gradien harus menghemat norma tertentu . Dalam hal ini, Anda dapat mencoba menerapkan skema loncatan waktu-mempertahankan struktur (misalnya, melibatkan tarik-mundur sehubungan dengan kelompok Lie yang sesuai atau integrator geometrik).xxx

  3. Jika tidak dapat dibedakan tetapi cembung, langkah Euler ke depan sesuai dengan metode keturunan subgradien yang bisa sangat lambat karena batasan ukuran langkah. Di sisi lain, langkah Euler implisit berhubungan dengan metode titik proksimal , yang tidak ada batasan seperti itu (dan yang dengan demikian telah menjadi sangat populer di, misalnya, pemrosesan gambar).f

  4. Dalam nada yang sama, metode seperti itu dapat dipercepat secara signifikan dengan langkah-langkah ekstrapolasi. Salah satu cara untuk memotivasi ini adalah dengan mengamati bahwa metode standar orde pertama menderita karena harus membuat banyak langkah kecil dekat dengan minimizer, karena arah gradien "berosilasi" (pikirkan ilustrasi standar mengapa gradien konjugat mengungguli penurunan curam). Untuk memperbaiki ini, seseorang dapat "meredam" iterasi dengan tidak menyelesaikan sistem dinamika orde pertama, tetapi sistem orde dua teredam : untuk dipilih dengan . Dengan diskritisasi yang tepat, ini mengarah ke iterasi (dikenal sebagai metode bola berat Polyak ) dari formulir

    Sebuah1x¨(t)+Sebuah2x˙(t)=-f(x(t))
    Sebuah1,Sebuah2
    xk+1=xk-γkf(xk)+αk(xk-xk-1)
    (dengan tergantung pada ). Gagasan serupa ada untuk metode titik proksimal, lihat, misalnya, makalah http://arxiv.org/pdf/1403.3522.pdf oleh Dirk Lorenz dan Thomas Pock.γk,αkSebuah1,Sebuah2

(Saya harus menambahkan itu sepengetahuan saya, dalam sebagian besar kasus ini penafsiran sebagai sistem dinamis tidak sepenuhnya diperlukan untuk derivasi atau bukti konvergensi algoritma; orang dapat berpendapat bahwa ide-ide seperti "implisit vs eksplisit" atau turunan Lie) sebenarnya lebih mendasar daripada sistem dinamik atau metode gradient descent. Namun, tidak ada salahnya memiliki sudut pandang lain untuk melihat masalah.)


EDIT: Saya baru saja menemukan contoh yang sangat baik dari konteks kedua, di mana interpretasi ODE digunakan untuk menyimpulkan sifat-sifat metode ekstragradien Nesterov dan menyarankan perbaikan: http://arxiv.org/pdf/1503.01243.pdf (Perhatikan bahwa ini juga contoh dari poin Jed Brown, di mana penulis pada dasarnya menemukan kembali poin 4 di atas tanpa tampaknya menyadari algoritma Polyak.)

EDIT 2: Dan sebagai indikasi seberapa jauh Anda dapat mengambil ini, lihat halaman 5 dari http://arxiv.org/pdf/1509.03616v1.pdf .

Christian Clason
sumber
Saya menerima jawaban ini karena paragraf kedua paling langsung menjawab pertanyaan yang saya coba tanyakan, tetapi saya juga menyukai jawaban Jed Brown.
Andrew T. Barker
13

Sementara saya belum melihat formulasi yang tepat yang telah Anda tulis di sini, saya terus melihat pembicaraan di mana orang-orang "menemukan kembali" koneksi untuk mengintegrasikan beberapa sistem sementara, dan melanjutkan untuk menulis algoritma yang secara aljabar-equilavent ke satu bentuk atau lain dari keturunan gradien yang ada atau metode seperti-Newton, dan gagal mengutip orang lain. Saya pikir itu tidak terlalu berguna karena kesimpulannya pada dasarnya adalah "selama Anda mengambil langkah-langkah yang cukup kecil, metode ini akhirnya menyatu ke minimum lokal". Nah, 2014 menandai peringatan ke-45 makalah Philip Wolfe yang menunjukkan bagaimana melakukan ini dengan cara yang berprinsip. Ada juga teori yang baik untuk memperoleh konvergensi q-kuadratik atau q-superlinear dari kelanjutan pseudotransient dan metode terkait seperti Levenberg-Marquardt.

Jika Anda ingin contoh penemuan kembali ini menggunakan formulasi mirip-Newton untuk menyelesaikan persamaan aljabar (yaitu, kelanjutan pseudotransient klasik) dari seorang ahli matematika dengan lebih dari 600 makalah (jadi mungkin dia akan membuktikan hal-hal yang menurut Anda menarik), lihatlah " Metode Sistem Dinamis "oleh AG Ramm [1].

Jika intuisi diperoleh dengan mempertimbangkan sistem sementara menyebabkan algoritma praktis yang lebih cepat atau lebih dapat diandalkan, saya pikir kita akan melihat artikel yang sangat dikutip tentang masalah itu. Saya pikir bukan misteri bahwa Nocedal dan Wright memiliki lebih dari 13000 kutipan, sementara buku Ramm memiliki sekitar 80 (kebanyakan kutipan sendiri).

[1] Saya dapat menyarankan Anda untuk tidak memberi tahu Prof. Ramm bahwa DSM-nya setara secara aljabar dengan sesuatu yang telah ada dalam paket-paket teknik yang tak terhitung jumlahnya selama beberapa dekade atau Anda mungkin bisa berteriak ke luar ruangan. #gradstudentmemories

Jed Brown
sumber
3
Mungkin akan lebih menarik melihatmu memberitahunya sekarang, Jed!
Bill Barth
0

Jika metode ODE dapat berkontribusi untuk optimasi, apakah ada contoh masalah yang sangat sederhana untuk menunjukkan ini?
Seorang pria jerami: apakah ada pemecah ODE yang melakukan pekerjaan yang masuk akal
x˙=-f(x)
x¨=βx˙-αf(x)  
f

Dalam praktiknya, langkah "terlalu besar" jauh lebih bermasalah daripada "terlalu kecil" - osilasi berantakan.
Saya berpikir dengan naif bahwa teori kontrol dapat membantu. Resep Numerik hal. 915 menjelaskan
kontrol stepsize adaptif PI untuk ODE, tapi saya tidak tahu apakah ini digunakan dalam praktik.

denis
sumber
Tampaknya Anda memposting pertanyaan baru sebagai jawaban ... Pertanyaan terkait tangensial harus diposting dalam pertanyaan atau komentar terpisah untuk jawaban yang diberikan.
Paul
@ Paul, apakah ini masuk akal? Jika demikian, bisakah Anda menyarankan judul untuk pertanyaan baru?
denis
Saya bingung ... Saya bisa saja salah, tetapi tampaknya respons Anda tidak benar-benar pertanyaan OP. Apa sebenarnya pesan yang ingin Anda sampaikan dan bagaimana hubungannya dengan pertanyaan awal?
Paul
@ Paul, maaf saya tidak jelas. Pertanyaan seperti yang saya mengerti menanyakan hubungan antara masalah optimasi tertentu dan pemecah waktu alias ODE. Christian Clason menunjukkan hubungan langsung antara gradient descent dan pemecah ODE tertentu (forward-Euler). Saya berkomentar, apa fungsi tes sederhana f () yang menunjukkan pemecah ODE bergerak ke minimum f ()?
denis