Saya mendengar Andrew Ng (dalam video yang sayangnya tidak dapat saya temukan lagi) berbicara tentang bagaimana pemahaman tentang minimum lokal dalam masalah pembelajaran yang mendalam telah berubah dalam arti bahwa mereka sekarang dianggap kurang bermasalah karena dalam ruang dimensi tinggi (ditemui dalam pembelajaran mendalam) poin-poin kritis lebih cenderung menjadi poin pelana atau dataran tinggi daripada minimum lokal.
Saya telah melihat makalah (misalnya yang ini ) yang membahas asumsi di mana "setiap minimum lokal adalah minimum global". Asumsi-asumsi ini semuanya agak teknis, tetapi dari apa yang saya mengerti mereka cenderung memaksakan struktur pada jaringan saraf yang membuatnya agak linier.
Apakah ini klaim yang valid bahwa, dalam pembelajaran mendalam (termasuk arsitektur nonlinier), dataran tinggi lebih mungkin daripada minimum lokal? Dan jika demikian, apakah ada intuisi (mungkin matematika) di baliknya?
Apakah ada hal khusus tentang pembelajaran mendalam dan poin pelana?
Jawaban:
Ini hanya mencoba menyampaikan intuisi saya, yaitu tidak ada ketelitian. Masalahnya dengan sadel poin adalah bahwa mereka adalah jenis yang optimal yang menggabungkan kombinasi minima dan maxima. Karena jumlah dimensi begitu besar dengan pembelajaran yang dalam, probabilitas bahwa yang optimal hanya terdiri dari kombinasi minima sangat rendah. Ini berarti 'terjebak' dalam minimum lokal jarang terjadi. Dengan risiko terlalu menyederhanakan, lebih sulit untuk 'terjebak' di titik pelana karena Anda dapat 'meluncur ke bawah salah satu dimensi'. Saya pikir video Andrew Ng yang Anda rujuk berasal dari kursus Coursera tentang Deep Learning olehnya.
sumber
Biarkan saya memberikan penjelasan berdasarkan kalkulus multivariat. Jika Anda telah mengambil kursus multivariat, Anda akan pernah mendengar bahwa, diberikan titik kritis (titik di mana gradien nol), syarat untuk titik kritis ini menjadi minimum adalah bahwa matriks Hessian adalah pasti positif. Karena Hessian adalah matriks simetris, kita dapat mendiagonalkannya. Jika kita menulis matriks diagonal yang sesuai dengan Goni sebagai: Hessian yang pasti positif sama dengand1>0,…,dn>0.
Tapi bagaimana dengan maxima?
sumber