Mengapa matriks simetris positif pasti (SPD) begitu penting?

20

Saya tahu definisi matriks positif simetris positif (SPD), tetapi ingin lebih memahami.

Mengapa mereka begitu penting, secara intuitif?

Inilah yang saya tahu. Apa lagi?

Untuk data yang diberikan, matriks Co-variance adalah SPD. Matriks co-variance adalah metrik penting, lihat posting yang luar biasa ini untuk penjelasan intuitif.
Bentuk kuadrat $\frac 1 2 x^\top Ax-b^\top x +c$ adalah cembung, jika $A$ adalah SPD. Convexity adalah properti yang bagus untuk suatu fungsi yang dapat memastikan solusi lokal adalah solusi global. Untuk masalah Cembung, ada banyak algoritma yang baik untuk dipecahkan, tetapi tidak untuk masalah non-covex.
Ketika $A$ adalah SPD, solusi optimisasi untuk bentuk kuadratik
$minimize \frac{1}{2} x^{⊤} A x - b^{⊤} x + c$ $\text{minimize}~~~ \frac 1 2 x^\top Ax-b^\top x +c$ dan solusi untuk sistem linear $A x = b$ $Ax=b$ adalah sama. Jadi kita dapat menjalankan konversi antara dua masalah klasik. Ini penting karena memungkinkan kami menggunakan trik yang ditemukan di satu domain di domain lain. Sebagai contoh, kita dapat menggunakan metode gradien konjugasi untuk menyelesaikan sistem linear.
Ada banyak algoritma yang baik (cepat, stabil numerik) yang berfungsi lebih baik untuk matriks SPD, seperti dekomposisi Cholesky.

EDIT: Saya tidak mencoba menanyakan identitas untuk matriks SPD, tetapi intuisi di belakang properti untuk menunjukkan pentingnya. Misalnya, seperti yang disebutkan oleh @Matthew Drury, jika sebuah matriks adalah SPD, semua nilai Eigen adalah bilangan real positif, tetapi mengapa semua hal-hal positif penting. @Matthew Drury memiliki jawaban yang bagus untuk mengalir dan itulah yang saya cari.

mathematical-statistics optimization covariance-matrix intuition linear-algebra Haitao Du
sumber

7

Nilai eigen adalah bilangan real positif. Fakta ini mendasari banyak dari yang lain.

Matthew Drury

4

Untuk sedikit lebih jauh dari @Matthew: Jika Anda memilih basis yang sesuai, semua matriks tersebut adalah sama dan sama dengan matriks identitas. Dengan kata lain, ada persis satu bentuk kuadrat pasti-positif di setiap dimensi (untuk ruang vektor nyata) dan itu sama dengan jarak Euclidean.

whuber

2

Anda akan menemukan beberapa intuisi dalam banyak cara dasar untuk menunjukkan nilai eigen dari matriks simetris nyata semuanya nyata: mathoverflow.net/questions/118626/... Secara khusus, bentuk kuadrat

muncul secara alami dalam hasil analisis Rayleigh, dan matriks simetris menyediakan cara alami untuk memamerkan keluarga besar matriks yang nilai eigennya nyata. Lihat teorema minimax Courant misalnya: en.wikipedia.org/wiki/Courant_minimax_principle

x^{T} A x

$x^TAx$

Alex R.

4

Ini kelihatannya terlalu luas, jika tidak memiliki tiga jawaban, saya kemungkinan akan menutupnya atas dasar itu. Tolong tawarkan panduan lebih lanjut tentang apa yang ingin Anda ketahui secara spesifik (meminta intuisi terlalu pribadi / individu untuk ditebak orang dalam kasus seperti ini)

Glen_b -Reinstate Monica

1

Saya mengalami kesulitan menemukan situasi dalam statistik yang akan memunculkan matriks yang bukan psd (kecuali Anda mengacaukan penghitungan matriks korelasi, misalnya dengan mengisinya dengan korelasi berpasangan yang dihitung pada data dengan nilai yang hilang) . Matriks simetris persegi yang dapat saya pikirkan adalah kovarians, informasi atau matriks proyeksi. (Di tempat lain dalam matematika terapan, matriks non-psd mungkin merupakan norma budaya, misalnya matriks elemen hingga di PDE, katakan.)

StasK

15

Matriks simetris (nyata) memiliki satu set vektor eigen ortogonal yang lengkap dengan nilai eigen yang sesuai semuanya adalah bilangan real. Untuk matriks non-simetris ini bisa gagal. Misalnya, rotasi dalam ruang dua dimensi tidak memiliki vektor eigen atau nilai eigen dalam bilangan real, Anda harus beralih ke ruang vektor di atas bilangan kompleks untuk menemukannya.

Jika matriks tersebut juga positif pasti, maka nilai eigen ini adalah bilangan real positif. Fakta ini jauh lebih mudah daripada yang pertama, karena jika adalah vektor eigen dengan satuan panjang, dan nilai eigen yang sesuai, maka $v$ $\lambda$

λ = λ v^{t} v = v^{t} SEBUAH v > 0

$\lambda = \lambda v^t v = v^t A v > 0$

di mana kesetaraan terakhir menggunakan definisi ketajaman positif.

Pentingnya intuisi di sini adalah bahwa vektor eigen dan nilai eigen dari transformasi linear menggambarkan sistem koordinat di mana transformasi paling mudah dipahami. Transformasi linier bisa sangat sulit untuk dipahami dalam basis "alami" seperti sistem koordinat standar, tetapi masing-masing dilengkapi dengan basis vektor eigen "pilihan" di mana transformasi bertindak sebagai penskalaan di semua arah. Ini membuat geometri transformasi lebih mudah dipahami.

Misalnya, tes turunan kedua untuk ekstrema lokal dari fungsi sering diberikan sebagai serangkaian kondisi misterius yang melibatkan entri dalam matriks turunan kedua dan beberapa faktor penentu. Faktanya, kondisi ini hanya menyandikan pengamatan geometris berikut: $R^2 \rightarrow R$

Jika matriks turunan kedua adalah pasti positif, Anda berada di minimum lokal.
Jika matriks derivatif kedua adalah pasti negatif, Anda berada pada maksimum lokal.
Jika tidak, Anda tidak berada pada titik sadel.

Anda dapat memahami ini dengan alasan geometris di atas dalam basis eigen. Derivatif pertama pada titik kritis menghilang, sehingga laju perubahan fungsi di sini dikendalikan oleh turunan kedua. Sekarang kita dapat bernalar secara geometris

Dalam kasus pertama ada dua arah eigen, dan jika Anda bergerak salah satu fungsinya meningkat.
Di kedua, dua arah eigen, dan jika Anda bergerak di salah satu fungsi menurun.
Yang terakhir, ada dua arah eigen, tetapi di salah satu dari mereka fungsi meningkat, dan yang lain menurun.

Karena vektor eigen menjangkau seluruh ruang, setiap arah lainnya merupakan kombinasi linear dari arah eigen, sehingga laju perubahan dalam arah tersebut adalah kombinasi linear dari laju perubahan dalam arah eigen. Jadi pada kenyataannya, ini berlaku untuk semua arah (ini kurang lebih artinya untuk fungsi yang didefinisikan pada ruang dimensi yang lebih tinggi untuk dapat dibedakan). Sekarang jika Anda menggambar sedikit di kepala Anda, ini membuat banyak akal dari sesuatu yang cukup misterius dalam teks kalkulus pemula.

Ini berlaku langsung ke salah satu poin Anda

Bentuk kuadrat adalah cembung, jikaadalah SPD. Convex adalah properti bagus yang dapat memastikan solusi lokal adalah solusi global $\frac 1 2 x^\top Ax-b^\top x +c$ $A$

Matriks turunan kedua adalah mana mana, yang pasti positif simetris. Secara geometris, ini berarti bahwa jika kita bergerak dalam arah eigen apa pun (dan karenanya arah apa pun , karena yang lain merupakan kombinasi linear dari arah eigen) fungsi itu sendiri akan melengkung jauh di atas bidang singgung itu. Ini berarti seluruh permukaan cembung. $A$

Matthew Drury
sumber

5

Cara grafis untuk melihatnya: jika

adalah SPD, kontur bentuk kuadrat yang terkait adalah ellipsoidal.

A

$\mathbf A$

JM bukan ahli statistik

7

Karakterisasi oleh @JM ini sangat perseptif. Jika ada yang bertanya-tanya apa yang mungkin istimewa tentang kontur ellipsoidal, perhatikan bahwa mereka hanya bola sempurna yang menyamar: unit pengukuran mungkin berbeda di sepanjang sumbu utama mereka dan ellipsoid mungkin diputar sehubungan dengan koordinat di mana data dijelaskan , tetapi untuk banyak tujuan - terutama yang konseptual - perbedaan itu tidak penting.

whuber

Itu terkait dengan cara saya memahami metode Newton secara geometris. Kira-kira perkiraan level saat ini dengan ellipsoid, dan kemudian ambil sistem koordinat di mana ellipsoid adalah lingkaran, pindahkan ortogonal ke lingkaran dalam sistem koordinat itu.

Matthew Drury

1

Jika ada kendala (aktif), Anda perlu memproyeksikan ke Jacobian dari kendala aktif sebelum melakukan nilai eigen dan eigendirection spiel. Jika Hessian adalah psd, proyeksi (apa saja) akan psd, tetapi sebaliknya tidak selalu benar, dan seringkali tidak. Lihat jawaban saya.

Mark L. Stone

10

Anda akan menemukan beberapa intuisi dalam banyak cara dasar untuk menunjukkan nilai eigen dari matriks simetris nyata semuanya nyata: /mathpro/118626/real-symmetric-matrix-has-real-eigenvalues-elementary- bukti / 118640 # 118640

Secara khusus, bentuk kuadrat muncul secara alami dalam hasil bagi Rayleigh, dan matriks simetris memberikan apa yang bisa dibilang cara paling alami untuk menunjukkan keluarga besar matriks yang nilai eigennya nyata. Lihat teorema minimax Courant misalnya: https://en.wikipedia.org/wiki/Courant_minimax_principle $x^TAx$

Juga simetris, matriks yang pasti ketat positif hanya mengatur matriks yang dapat menentukan produk dalam non-sepele, bersama dengan norma diinduksi: . Ini karena menurut definisi untuk vektor nyata untuk semua dan $d(x,y)=\langle x,Ay\rangle=x^TAy$ $x,y$ $d(x,y)=d(y,x)$ $x,y$ untuk . Dengan cara ini, matriks definitif positif simetris dapat dipandang sebagai kandidat yang ideal untuk transformasi koordinat. $\|x\|^2=x^TAx>0$ $x\neq 0$

Properti yang terakhir ini benar-benar penting dalam bidang mesin vektor pendukung, khususnya metode kernel dan trik kernel , di mana kernel harus positif simetris untuk menginduksi produk dalam yang benar. Memang teorema Mercer menggeneralisasi sifat intuitif dari matriks simetris ke ruang fungsional.

Alex R.
sumber

9

Sehubungan dengan optimasi (karena Anda menandai pertanyaan Anda dengan tag optimasi), matriks SPD sangat penting untuk satu alasan sederhana - SPD Hessian menjamin bahwa arah pencarian adalah arah penurunan. Pertimbangkan derivasi metode Newton untuk optimisasi tanpa kendala. Pertama, kami membentuk ekspansi Taylor dari : $f(x + \Delta x)$

f (x + Δ x) \approx f (x) + Δ x^{T} \nabla f (x) + \frac{1}{2} Δ x^{T} \nabla^{2} f (x) Δ x

$f(x + \Delta x)\approx f(x) + \Delta x^T \nabla f(x)+ \frac{1}{2} \Delta x^T \nabla^2 f(x) \Delta x$

Selanjutnya, kami mengambil turunannya sehubungan dengan : $\Delta x$

f^{'} (x + Δ x) \approx \nabla f (x) + \nabla^{2} f (x) Δ x

$f'(x + \Delta x)\approx \nabla f(x) + \nabla^2 f(x) \Delta x$

Akhirnya, tetapkan turunan sama dengan 0 dan selesaikan untuk : $\Delta x$

Δ x = - \nabla^{2} f (x)^{- 1} \nabla f (x)

$\Delta x = -\nabla^2 f(x)^{-1} \nabla f(x)$

Dengan asumsi $\nabla^2 f(x)$ adalah SPD, mudah untuk melihat bahwa adalah arah penurunan karena: $\Delta x$

\nabla f (x)^{T} Δ x = - \nabla f (x)^{T} \nabla^{2} f (x)^{- 1} \nabla f (x) < 0

$\nabla f(x)^T \Delta x = -\nabla f(x)^T \nabla^2 f(x)^{-1} \nabla f(x) < 0$

Saat menggunakan metode Newton, matriks Hessian non-SPD biasanya "didorong" menjadi SPD. Ada algoritma rapi yang disebut Cholesky termodifikasi yang akan mendeteksi Hessian non-SPD, "mendorong" dengan tepat ke arah yang benar dan memfaktisasi hasilnya, semuanya untuk (pada dasarnya) biaya yang sama dengan faktorisasi Cholesky. Metode Quasi-Newton menghindari masalah ini dengan memaksa perkiraan Goni menjadi SPD.

Sebagai tambahan, sistem tak terbatas simetris menerima banyak perhatian hari ini. Mereka muncul dalam konteks metode titik interior untuk optimasi terbatas.

Bill Woessner
sumber

Terima kasih banyak atas jawaban yang bagus. Saya mengerti arah yang layak penting dalam metode pencarian garis. Dalam metode trust region, arah yang layak juga penting?

Haitao Du

1

Masih penting untuk metode wilayah kepercayaan. Metode trust region pada dasarnya bekerja dengan membatasi ukuran langkah PERTAMA dan kemudian menyelesaikan untuk arah langkah. Jika langkah tidak mencapai penurunan yang diinginkan dalam nilai fungsi tujuan, Anda mengurangi batas ukuran langkah dan memulai kembali. Bayangkan bahwa algoritma Anda untuk menghasilkan arah langkah tidak menjamin bahwa arah langkah adalah arah turun. Bahkan ketika jari-jari wilayah trust mencapai 0, Anda mungkin tidak pernah menghasilkan langkah yang dapat diterima (bahkan jika ada) karena tidak ada satu pun arah langkah Anda yang merupakan arah turun.

Bill Woessner

Metode pencarian garis pada dasarnya menunjukkan perilaku yang sama. Jika arah pencarian Anda bukan arah turun, algoritma pencarian baris mungkin tidak akan pernah menemukan panjang langkah yang dapat diterima - karena tidak ada satu pun. :-)

Bill Woessner

Jawaban yang bagus, terima kasih telah membantu saya untuk menghubungkan potongan-potongan.

Haitao Du

9

Secara geometris, matriks definitif positif mendefinisikan metrik , misalnya metrik Riemann, sehingga kita dapat langsung menggunakan konsep geometris.

Jika $x$ dan $y$ adalah vektor dan $A$ adalah matriks pasti positif, maka

d (x, y) = \sqrt{(x - y)^{T} A (x - y)}

$d(x,y) = \sqrt{(x-y)^T A (x-y)}$ adalah metrik (juga disebut fungsi jarak).

$\mathbb{R}^n$

⟨ x, y ⟩ = x^{T} A y

$\langle x,y \rangle = x^T A y$

A

$A$

R^{n}

$\mathbb{R}^n$

kjetil b halvorsen
sumber

1

... dan tentu saja jarak yang biasa ditempuh

A = I

$\mathbf A=\mathbf I$ ...

JM bukan ahli statistik

6

Sudah ada beberapa jawaban yang menjelaskan mengapa matriks pasti positif simetris begitu penting, jadi saya akan memberikan jawaban yang menjelaskan mengapa mereka tidak sepenting beberapa orang, termasuk penulis dari beberapa jawaban itu, berpikir. Demi kesederhanaan, saya akan membatasi fokus ke matriks simetris, dan berkonsentrasi pada Hessians dan optimisasi.

Jika Tuhan membuat dunia cembung, tidak akan ada optimasi cembung, hanya akan ada optimasi. Demikian pula, tidak akan ada matriks (pasti) positif (simetris), hanya akan ada matriks (simetris). Tapi bukan itu masalahnya, jadi atasi saja.

Jika masalah Pemrograman Quadratic adalah cembung, itu bisa diselesaikan "dengan mudah". Jika tidak cembung, optimum global masih dapat ditemukan menggunakan metode branch and bound (tetapi mungkin membutuhkan lebih banyak memori dan lebih lama).

Jika metode Newton digunakan untuk optimasi dan Hessian di beberapa iterate tidak terbatas, maka tidak perlu untuk "memperhalus" itu ke kepastian positif. Jika menggunakan pencarian garis, arah kelengkungan negatif dapat ditemukan dan pencarian garis dieksekusi di sepanjang mereka, dan jika menggunakan wilayah kepercayaan, maka ada beberapa wilayah kepercayaan yang cukup kecil sehingga solusi dari masalah wilayah kepercayaan mencapai keturunan.

Adapun metode Quasi-Newton, BFGS (teredam jika masalahnya terbatas) dan DFP mempertahankan kepastian positif dari pendekatan Hessian atau Hessian terbalik. Metode Quasi-Newton lainnya, seperti SR1 (Symmetric Rank One) tidak harus mempertahankan kepastian positif. Sebelum Anda mendapatkan semua bengkok dari itu, itu adalah alasan yang baik untuk memilih SR1 untuk banyak masalah - jika Hessian benar-benar tidak pasti positif di sepanjang jalan ke optimal, maka memaksa pendekatan Quasi-Newton menjadi positif pasti dapat menghasilkan aproksimasi kuadratik yang buruk terhadap fungsi objektif. Sebaliknya, metode pemutakhiran SR1 "longgar seperti angsa", dan dapat berubah dengan sendirinya berubah seiring berjalannya waktu.

Untuk masalah optimasi yang dibatasi secara nonlinier, yang penting bukanlah Hessian dari fungsi objektif, tetapi Hessian dari Lagrangian. Hessian dari Lagrangian mungkin tidak terbatas bahkan pada optimum, dan memang, hanya proyeksi Hessian dari Lagrangian ke dalam ruang kosong dari Jacobian dari batasan aktif (linier dan nonlinier) yang perlu semi positif. -Tentu pada optimal. Jika Anda memodelkan Hessian of the Lagrangian via BFGS dan dengan demikian membatasinya menjadi positif pasti, itu mungkin sangat cocok di mana-mana, dan tidak berfungsi dengan baik. Sebaliknya, SR1 dapat menyesuaikan nilai eigennya dengan apa yang sebenarnya "dilihatnya".

Ada banyak lagi yang bisa saya katakan tentang semua ini, tetapi ini cukup untuk memberi Anda rasa.

Sunting : Apa yang saya tulis 2 paragraf di atas adalah benar. Namun, saya lupa menunjukkan bahwa itu juga berlaku untuk masalah yang dibatasi secara linear. Dalam kasus masalah yang dibatasi secara linear, Hessian dari Lagrangian hanya (mengurangi hingga) Hessian dari fungsi tujuan. Jadi syarat optimalitas urutan ke-2 untuk minimum lokal adalah bahwa proyeksi fungsi tujuan Goni ke dalam ruang kosong Jacobian dari kendala aktif adalah semi-pasti positif. Terutama, Hessian dari fungsi objektif tidak perlu (harus) menjadi optimal, dan seringkali tidak, bahkan pada masalah yang dibatasi secara linear.

Mark L. Stone
sumber

"Siapa yang Takut pada Fungsi Kehilangan Cembung?" ... not @ MarkL.Stone

GeoMatt22

@ GeoMatt22 Anda bertaruh @ $$ saya tidak. Di sisi lain, jika Anda akan membuat (memilih) fungsi kerugian, tidak perlu membuatnya non-cembung ketika tidak ada tujuan yang baik selain untuk berperahu. Kebijaksanaan adalah bagian dari keberanian yang lebih baik.

Mark L. Stone

@ Mark L. Stone: Ini menarik! Bisakah Anda memberikan referensi ke beberapa literatur di mana saya bisa membaca tentang hal-hal seperti itu?

kjetil b halvorsen

@kjetil b halvorsen. Pencarian baris dengan arah folk.uib.no/ssu029 kelengkungan negatif / PDF_file/Curvilinear/More79.pdf . Wilayah kepercayaan tercakup dalam banyak buku dan kertas. Buku terkenal dengan intro yang baik untuk mempercayai wilayah adalah amazon.com/ ... .. Buku monster, agak ketinggalan zaman sekarang, adalah epubs.siam.org/doi/book/10.1137/1.9780898719857 . Mengenai paragraf terakhir saya tentang kondisi optimalitas, bacalah pada kondisi KKT urutan kedua

Mark L. Stone

@ kjetil b halvorsen Saya tidak membahas menemukan global optimal dari Program Quadratic non-cembung. Perangkat lunak yang tersedia secara luas, seperti CPLEX, dapat melakukan ini, lihat ibm.com/support/knowledgecenter/SS9UKU_12.6.1/… . Tentu saja itu tidak selalu cepat, dan mungkin membutuhkan memori. Saya telah memecahkan ke optimalitas global beberapa masalah minimalisasi QP dengan puluhan ribu variabel yang memiliki beberapa ratus nilai eigen negatif yang signifikan.

Mark L. Stone

5

Anda telah mengutip banyak alasan mengapa SPD penting namun Anda masih memposting pertanyaan. Jadi, menurut saya Anda harus menjawab pertanyaan ini terlebih dahulu: Mengapa kuantitas positif penting?

Jawaban saya adalah bahwa sejumlah kuantitas harus positif agar sesuai dengan pengalaman atau model kita. Misalnya, jarak antara item dalam ruang harus positif. Koordinat bisa negatif, tetapi jarak selalu non-negatif. Oleh karena itu, jika Anda memiliki kumpulan data dan beberapa algoritma yang memprosesnya Anda mungkin berakhir dengan satu yang rusak ketika Anda memberi makan jarak negatif ke dalamnya. Jadi, Anda mengatakan "algoritma saya memerlukan input jarak positif setiap saat", dan itu tidak terdengar seperti permintaan yang tidak masuk akal.

Dalam konteks statistik, analogi yang lebih baik adalah varians. Jadi, kami menghitung varians sebagai

\sum_{saya} (x_{saya} - μ)^{2} / n

$\sum_i (x_i-\mu)^2/n$ Jelas dari definisi bahwa jika Anda memberi makan dalam bilangan real

x_{i}

$x_i$ ke dalam persamaan output selalu non-negatif. Karenanya, Anda dapat membuat algoritme yang berfungsi dengan angka non-negatif, dan mungkin lebih efisien daripada algoritme tanpa batasan ini. Itulah alasan kami menggunakannya.

Jadi, matriks varians-kovarians adalah semi-pasti positif, yaitu "non-negatif" dalam analogi ini. Contoh algoritma yang memerlukan kondisi ini adalah penguraian Cholesky, ini sangat berguna. Ini sering disebut "akar kuadrat dari matriks". Jadi, seperti akar kuadrat dari bilangan real yang membutuhkan non-negatif, Cholesky menginginkan matriks non-negatif. Kami tidak menemukan kendala ini ketika berhadapan dengan matriks kovarians karena selalu ada.

Jadi, itulah jawaban utilitarian saya. Kendala seperti non-negatif atau SPD memungkinkan kami membangun algoritma perhitungan yang lebih efisien atau alat pemodelan yang nyaman yang tersedia ketika input Anda memenuhi kendala ini.

Aksakal
sumber

3

Berikut adalah dua alasan lagi yang belum disebutkan mengapa matriks positif-semidefinit penting:

Matriks Laplacian grafik dominan diagonal dan dengan demikian PSD.
Semidefiniteness positif mendefinisikan urutan parsial pada set matriks simetris (ini adalah dasar pemrograman semidefinite).

Thoth
sumber

Mengapa matriks simetris positif pasti (SPD) begitu penting?

Jawaban: