Masalah Optimasi yang Dibatasi dalam Matriks Entropi

Sunting: Seorang kolega memberi tahu saya bahwa metode saya di bawah ini adalah contoh dari metode umum dalam makalah berikut, ketika dikhususkan untuk fungsi entropi,

Overton, Michael L., dan Robert S. Womersley. "Derivatif kedua untuk mengoptimalkan nilai eigen dari matriks simetris." Jurnal SIAM tentang Analisis dan Aplikasi Matriks 16.3 (1995): 697-718. http://ftp.cs.nyu.edu/cs/faculty/overton/papers/pdffiles/eighess.pdf

Gambaran

Dalam posting ini saya menunjukkan bahwa masalah optimisasi diajukan dengan baik dan bahwa kendala ketimpangan tidak aktif pada solusi, kemudian menghitung turunan Frechet pertama dan kedua dari fungsi entropi, kemudian mengusulkan metode Newton pada masalah dengan kendala kesetaraan dihilangkan. Akhirnya, kode Matlab dan hasil numerik disajikan.

Posisi yang baik dari masalah optimasi

Pertama, jumlah matriks definit positif positif yang pasti, jadi untuk , jumlah dari peringkat-1 matriks positif pasti. Jika himpunan adalah peringkat penuh, maka nilai eigen dari adalah positif, sehingga logaritma dari nilai eigen dapat diambil. Dengan demikian fungsi objektif didefinisikan dengan baik pada interior set yang layak. $c_i > 0$

SEBUAH (c) : = \sum_{saya = 1}^{N} c_{saya} v_{saya} v_{saya}^{T}

$A(c):=\sum_{i=1}^N c_i v_i v_i^T$

v_{i}

$v_i$

A

$A$

Kedua, seperti apa pun , kehilangan peringkat sehingga nilai eigen terkecil dari menjadi nol. Yaitu, sebagai . Karena turunan meledak sebagai $c_i \rightarrow 0$ $A$ $A$ $\sigma_{min}(A(c)) \rightarrow 0$ $c_i \rightarrow 0$ $-\sigma \log(\sigma)$ $\sigma \rightarrow 0$ , seseorang tidak dapat memiliki urutan poin yang lebih baik dan lebih baik mendekati batas set yang layak. Dengan demikian masalahnya didefinisikan dengan baik dan lebih jauh lagi kendala ketimpangan tidak aktif. $c_i \ge 0$

Turunan frechet dari fungsi entropi

Di bagian dalam wilayah yang layak, fungsi entropi adalah Frechet yang dapat dibedakan di mana-mana, dan dua kali Frechet dapat dibedakan di mana pun nilai eigennya tidak diulang. Untuk melakukan metode Newton, kita perlu menghitung turunan dari entropi matriks, yang tergantung pada nilai eigen matriks. Ini membutuhkan kepekaan penghitungan dekomposisi nilai eigen dari matriks sehubungan dengan perubahan dalam matriks.

Ingat bahwa untuk matriks dengan dekomposisi nilai eigen $A$ , turunan dari matriks nilai eigen sehubungan dengan perubahan dalam matriks asli adalah, dan turunan dari matriks vektor eigen adalah, mana adalahproduk Hadamard, dengan koefisien matriks $A = U \Lambda U^T$

d Λ = saya \circ (U^{T} d SEBUAH U),

$d\Lambda = I \circ (U^T dA U),$

d U = U C (d SEBUAH),

$dU = UC(dA),$

\circ

$\circ$

C = {\begin{cases} \frac{{kamu}_{saya}^{T} d SEBUAH {kamu}_{j}}{λ_{j} - λ_{saya}}, & saya = j \\ 0, & saya = j \end{cases}

$C = \begin{cases} \frac{u_i^T dA u_j}{\lambda_j - \lambda_i}, & i=j \\ 0, &i=j \end{cases}$

Rumus seperti itu diperoleh dengan membedakan persamaan nilai eigen , dan formula itu berlaku setiap kali nilai eigennya berbeda. Ketika ada nilai eigen berulang, rumus untuk memiliki diskontinuitas yang dapat dilepas yang dapat diperpanjang selama vektor eigen tidak unik dipilih dengan hati-hati. Untuk detail tentang ini, lihat presentasi dan makalah berikut . $AU=\Lambda U$ $d\Lambda$

Derivatif kedua kemudian ditemukan dengan membedakan lagi,

\begin{aligned} d^{2} Λ & = d (saya \circ (U^{T} d {SEBUAH}_{1} U)) \\ = saya \circ (d U_{2}^{T} d {SEBUAH}_{1} U + U^{T} d {SEBUAH}_{1} d U_{2}) \\ = 2 saya \circ (d U_{2}^{T} d {SEBUAH}_{1} U) . \end{aligned}

$\begin{align} d^2 \Lambda &= d(I \circ (U^T dA_1U)) \\ &= I \circ (dU_2^T dA_1 U + U^T dA_1 dU_2) \\ &= 2 I \circ (dU_2^T dA_1 U). \end{align}$

$d^2 \Lambda$ $dU_2$ $C$ $v_i$

Menghilangkan kendala kesetaraan

Kita dapat menghilangkan batasan $\sum_{i=1}^N c_i = 1$ $N-1$

c_{N} = 1 - \sum_{saya = 1}^{N - 1} c_{saya} .

$c_N = 1-\sum_{i=1}^{N-1} c_i.$

Secara keseluruhan, setelah sekitar 4 halaman perhitungan matriks, turunan pertama dan kedua dari fungsi objektif sehubungan dengan perubahan dalam koefisien pertama diberikan oleh, $N-1$

d f = d C_{1}^{T} {M.}^{T} [saya \circ (V^{T} U B U^{T} V)]

$df = dC_1^T M^T [I \circ (V^T U B U^T V)]$

d d f = d C_{1}^{T} {M.}^{T} [saya \circ (V^{T} [2 d U_{2} B_{Sebuah} U^{T} + U B_{b} U^{T}] V)],

$ddf = dC_1^T M^T [I \circ (V^T[2dU_2 B_a U^T + U B_b U^T]V)],$

M. = [\begin{matrix} 1 \\ 1 \\ ⋱ \\ 1 \\ - 1 & - 1 & ... & - 1 \end{matrix}],

$M = \begin{bmatrix} 1 & \\ & 1 & \\ &&\ddots& \\ &&&1\\ -1 & -1 & \dots & -1 \end{bmatrix},$

B_{Sebuah} = d saya Sebuah g (1 + catatan λ_{1}, 1 + catatan λ_{2}, ..., 1 + catatan λ_{N}),

$B_a = \mathrm{diag}(1+\log \lambda_1, 1 + \log \lambda_2, \ldots, 1 + \log \lambda_N),$

B_{b} = d saya Sebuah g (\frac{d_{2} λ_{1}}{λ_{1}}, ..., \frac{d_{2} λ_{N}}{λ_{N}}) .

$B_b = \mathrm{diag}(\frac{d_2\lambda_1}{\lambda_1},\ldots,\frac{d_2\lambda_N}{\lambda_N}).$

Metode Newton setelah menghilangkan kendala

Karena kendala ketimpangan tidak aktif, kami hanya mulai pada set yang layak dan menjalankan trust-region atau pencarian baris intonact newton-CG untuk konvergensi kuadrat ke maxima interior.

Metode ini adalah sebagai berikut, (tidak termasuk perincian pencarian wilayah / kepercayaan)

$\tilde{c} = [1/N,1/N,\ldots,1/N]$
Bangun koefisien terakhir, $c = [\tilde{c},1 - \sum_{i=1}^{N-1} c_i]$
$A = \sum_i c_i v_i v_i^T$
$U$ $\Lambda$ $A$
$G = M^T [I \circ (V^T U B U^T V)]$
$H G = p$ $p$ $H$ $H$ $\delta \tilde{c}$ $dU_2$ $B_a$ $B_b$ ${M.}^{T} [saya \circ (V^{T} [2 d U_{2} B_{Sebuah} U^{T} + U B_{b} U^{T}] V)]$ $M^T [I \circ (V^T[2dU_2 B_a U^T + U B_b U^T]V)]$
$\tilde{c} \leftarrow \tilde{c} - p$
Goto 2.

Hasil

$v_i$ $N=100$ $v_i$

>> N = 100;
>> V = randn (N, N);
>> untuk k = 1: NV (:, k) = V (:, k) / norm (V (:, k)); akhir
>> maxEntropyMatrix (V);
Iterasi Newton = 1, norma (grad f) = 0.67748
Iterasi Newton = 2, norma (grad f) = 0,03644
Iterasi Newton = 3, norma (grad f) = 0,0012167
Iterasi Newton = 4, norma (grad f) = 1.3239e-06
Iterasi Newton = 5, norma (grad f) = 7.7114e-13

Untuk melihat bahwa titik optimal yang dihitung sebenarnya adalah maksimum, berikut adalah grafik tentang bagaimana perubahan entropi ketika titik optimal terganggu secara acak. Semua gangguan membuat entropi berkurang. masukkan deskripsi gambar di sini

Kode matlab

Fungsi All in 1 untuk meminimalkan entropi (baru ditambahkan ke posting ini): https://github.com/NickAlger/various_scripts/blob/master/maxEntropyMatrix.m

Nick Algeria
sumber

Terima kasih banyak! Saya menyelesaikannya dengan sederhana dengan gradient asscent sendiri, tetapi ini mungkin lebih dapat diandalkan. Fakta bahwa v harus memiliki peringkat penuh dalam file matlab adalah satu-satunya hal yang menggangguku.

Kering

@NickAlger Tautan yang disediakan tidak berfungsi, bolehkah saya meminta Anda untuk melihatnya?

Pencipta

@Creator memperbarui tautan dalam pos! github.com/NickAlger/various_scripts/blob/master/…

Nick Alger

@NickAlger Apakah ada kendala pada matriks yang dapat dioperasikan algoritma? Apakah algoritma ini baik untuk matriks dengan elemen kompleks? Dalam kasus saya SVD gagal setelah beberapa waktu karena matriks memiliki Nan.

Pencipta

Saya tidak berpikir bilangan kompleks seharusnya menjadi masalah. Salah satu batasan metode ini adalah solusi optimal tidak dapat mengulangi nilai eigen, yang saya duga adalah apa yang terjadi di sini. Dalam hal ini metode konvergen ke sesuatu yang membaginya dengan nol dalam persamaan C. Anda dapat mencoba sedikit mengganggu input secara acak dan melihat apakah itu membantu. Ada cara untuk mengatasinya dalam makalah Overton yang dirujuk di atas, tetapi kode saya tidak semaju itu.

Nick Alger

Masalah Optimasi yang Dibatasi dalam Matriks Entropi

Jawaban: