poin minimum lokal vs sadel dalam pembelajaran yang mendalam

Saya mendengar Andrew Ng (dalam video yang sayangnya tidak dapat saya temukan lagi) berbicara tentang bagaimana pemahaman tentang minimum lokal dalam masalah pembelajaran yang mendalam telah berubah dalam arti bahwa mereka sekarang dianggap kurang bermasalah karena dalam ruang dimensi tinggi (ditemui dalam pembelajaran mendalam) poin-poin kritis lebih cenderung menjadi poin pelana atau dataran tinggi daripada minimum lokal.

Saya telah melihat makalah (misalnya yang ini ) yang membahas asumsi di mana "setiap minimum lokal adalah minimum global". Asumsi-asumsi ini semuanya agak teknis, tetapi dari apa yang saya mengerti mereka cenderung memaksakan struktur pada jaringan saraf yang membuatnya agak linier.

Apakah ini klaim yang valid bahwa, dalam pembelajaran mendalam (termasuk arsitektur nonlinier), dataran tinggi lebih mungkin daripada minimum lokal? Dan jika demikian, apakah ada intuisi (mungkin matematika) di baliknya?

Apakah ada hal khusus tentang pembelajaran mendalam dan poin pelana?

machine-learning deep-learning optimization convergence oW_
sumber

Ketika datang ke intuisi matematis mengapa titik sadel lebih mungkin daripada minimum lokal, saya akan memikirkannya dalam hal fitur. Untuk menjadi minimum lokal, itu harus minimum lokal di setiap arah. Sebaliknya, untuk titik sadel, hanya 1 arah yang harus berbeda dari yang lain. Sangat mungkin bahwa 1 atau lebih memiliki perilaku yang berbeda dari yang lain, dibandingkan dengan perilaku yang sama di semua arah.

Paul

terima kasih, sekarang setelah Anda mengatakannya, sudah agak jelas ... di sini ada beberapa diskusi menarik tentang topik

oW_

Andrew Ng memiliki video tentang "Masalah minimum lokal" pada minggu ke 2 dari kursus Coursera-nya, "Meningkatkan Jaringan Saraf Tiruan: Penyetelan Hyperparameter, Regularisasi dan Optimasi". Mungkin itu yang Anda cari.

mjul

lihat di sini

Media

Jawaban:

Ini hanya mencoba menyampaikan intuisi saya, yaitu tidak ada ketelitian. Masalahnya dengan sadel poin adalah bahwa mereka adalah jenis yang optimal yang menggabungkan kombinasi minima dan maxima. Karena jumlah dimensi begitu besar dengan pembelajaran yang dalam, probabilitas bahwa yang optimal hanya terdiri dari kombinasi minima sangat rendah. Ini berarti 'terjebak' dalam minimum lokal jarang terjadi. Dengan risiko terlalu menyederhanakan, lebih sulit untuk 'terjebak' di titik pelana karena Anda dapat 'meluncur ke bawah salah satu dimensi'. Saya pikir video Andrew Ng yang Anda rujuk berasal dari kursus Coursera tentang Deep Learning olehnya.

pengguna41985
sumber

Biarkan saya memberikan penjelasan berdasarkan kalkulus multivariat. Jika Anda telah mengambil kursus multivariat, Anda akan pernah mendengar bahwa, diberikan titik kritis (titik di mana gradien nol), syarat untuk titik kritis ini menjadi minimum adalah bahwa matriks Hessian adalah pasti positif. Karena Hessian adalah matriks simetris, kita dapat mendiagonalkannya. Jika kita menulis matriks diagonal yang sesuai dengan Goni sebagai: Hessian yang pasti positif sama dengan.

D = [\begin{matrix} d_{1} \\ ⋱ \\ d_{n} \end{matrix}]

$D = \begin{bmatrix} d_{1} & & \\ & \ddots & \\ & & d_{n} \end{bmatrix}$

d_{1} > 0, \dots, d_{n} > 0

$d_1 > 0, \dots, d_n>0$

$d_1,\dots,d_n$ $d_i$ $1/2$ $d_i$ $d_j$ , karena tingginya non-linearitas dari matriks Hessian, jadi kami akan mengambil probabilitas mereka menjadi positif sebagai peristiwa independen.

P (d_{1} > 0, ..., d_{n} > 0) = P (d_{1} > 0) \cdot \dots \cdot P (d_{n} > 0) = \frac{1}{2^{n}}

$P(d_1 > 0, \dots, d_n > 0) = P(d_1 > 0)\cdot \cdots \cdot P(d_n > 0) = \frac{1}{2^n}$

$10^8$ $1/2^n$

Tapi bagaimana dengan maxima?

$1/2 ^n$

P (s Sebuah d d l e) = 1 - P (m Sebuah x saya m kamu m) - P (m saya n saya m kamu m) = 1 - \frac{1}{2^{n}} - \frac{1}{2^{n}} = 1 - \frac{1}{2^{n - 1}}

$P(saddle) = 1 - P(maximum) - P(minimum) = 1 - \frac{1}{2^n} - \frac{1}{2^n} = 1 - \frac{1}{2^{n-1}}$

$n$

David Masip
sumber