Saya kira mungkin ada beberapa perbedaan antara bagaimana metode pencarian garis dan wilayah kepercayaan menangani penskalaan, tapi saya benar-benar tidak melihatnya dalam praktik selama kita mengetahui penskalaan. Dan, untuk lebih jelasnya, buku Nocedal dan Wright berbicara tentang scaling afine. Penskalaan nonlinier agak sulit untuk dikuantifikasi.
f:X→RA∈L(X)J:X→R
J(x)=∇J(x)=∇2J(x)=f(Ax)A∇f(Ax)A∇2f(Ax)A
A∇2J(x)δx=−∇J(x)
A∇2f(Ax)Aδx=−A∇f(Ax)
Aδx=−∇2f(Ax)−1∇f(Ax)
Hδx=−∇J(x)
HHδx=−A∇f(Ax)
AH
ϕ
δx=ϕ(−A∇f(Ax))
ϕϕϕA
∇2J(x)δx=−∇J(x)
tidak tepat menggunakan CG. Ini tepatnya menggunakan Steihaug-Toint dalam pengaturan wilayah-kepercayaan (hlm. 171 dalam Nocedal dan Wright) atau Newton-CG untuk pencarian garis (hlm. 169 dalam Nocedal dan Wright). Mereka bekerja cukup dekat dengan yang sama dan mereka tidak peduli tentang scaling afine. Mereka juga tidak perlu menyimpan Hessian, hanya produk vektor Hessian yang diperlukan. Sungguh, algoritma ini harus menjadi workhorses untuk sebagian besar masalah dan mereka tidak peduli tentang affine scaling.
Sejauh prekondisi untuk masalah wilayah kepercayaan, saya tidak berpikir ada cara mudah untuk memberitahu apriori jika Anda akan meningkatkan jumlah iterasi optimasi keseluruhan atau tidak. Sungguh, pada akhirnya, metode optimasi beroperasi dalam dua mode. Dalam mode satu, kita terlalu jauh dari radius konvergensi metode Newton, jadi kita mengglobal dan memaksa iterasi untuk memastikan bahwa tujuannya turun. Wilayah kepercayaan adalah satu arah. Pencarian baris adalah hal lain. Dalam mode dua, kita berada dalam radius konvergensi metode Newton, jadi kami mencoba untuk tidak mengacaukannya dan membiarkan metode Newton melakukan tugasnya. Bahkan, kita bisa melihat ini dalam bukti konvergensi hal-hal seperti metode wilayah-kepercayaan. Sebagai contoh, lihat Teorema 4.9 (hal.93 dalam Nocedal dan Wright). Sangat eksplisit, mereka menyatakan bagaimana wilayah kepercayaan menjadi tidak aktif. Dalam konteks ini, apa kegunaan dari prekondisi? Tentu saja, ketika kita berada dalam radius konvergensi metode Newton, kita bekerja jauh lebih sedikit dan jumlah iterasi CG turun. Apa yang terjadi ketika kita berada di luar radius ini? Ini semacam tergantung. Jika kita menghitung langkah Newton penuh, maka manfaatnya adalah kita melakukan lebih sedikit pekerjaan. Jika kita memotong langkah kita lebih awal karena pemotongan dari terpotong-CG, maka arah kita akan berada di subruang Krylov
{−P∇J(x),−(PH)(P∇J(x)),…,−(PH)k(P∇J(x))}
PH{−∇J(x),−(H)(∇J(x)),…,−(H)k(∇J(x))}?
Ini tidak berarti bahwa tidak ada nilai dalam mendefinisikan seorang pengkondisi yang baik. Namun, saya tidak yakin bagaimana seseorang mendefinisikan preconditioner untuk membantu dalam optimasi untuk poin jauh radius konvergensi metode Newton. Biasanya, kami merancang prekondisi untuk mengelompokkan nilai eigen dari pendekatan Hessian, yang merupakan tujuan nyata dan terukur.
tldr; Secara praktis, ada berbagai cara yang lebih besar untuk metode pencarian garis untuk menghasilkan iterate daripada metode wilayah kepercayaan, jadi mungkin ada cara yang luar biasa untuk menangani penskalaan affine. Namun, cukup gunakan metode Newton yang tidak tepat dan itu tidak masalah. Seorang preconditioner memang mempengaruhi kinerja suatu algoritma yang jauh dari radius konvergensi metode Newton, tetapi sulit untuk menghitung caranya, jadi rancanglah sebuah preconditioner untuk mengelompokkan nilai-nilai eigen dari pendekatan Hessias.