Apa perbedaan antara Estimasi Kemungkinan Maksimum & Keturunan Gradien?

Apa pro & kontra dari kedua metode tersebut?

maximum-likelihood predictive-models optimization gradient-descent GeorgeOfTheRF
sumber

Saya tidak mencari hanya definisi dari dua metode yang sudah saya miliki dari pencarian Google. Saya mencoba memahami metode mana yang lebih disukai dalam hal ini. Contoh: Untuk Bigdata akankah seseorang bekerja lebih baik daripada yang lain dll. Saya tidak dapat menemukan materi bagus yang berbicara tentang aspek praktis dll.

GeorgeOfTheRF

Bagaimana gagak seperti meja tulis?

whuber

@ML_Pro GD tidak terkait dengan pemodelan statistik, ini adalah sebuah algoritma. Anda mungkin bisa mulai dengan beberapa buku pegangan statistik pengantar untuk mendapatkan pemahaman yang lebih baik tentang inferensi statistik sebelum mempelajari alat - alat (seperti GD) untuk menyelesaikan masalah statistik.

Tim

Apakah Anda bermaksud menanyakan perbedaan antara Gradient Descent dan Expectation Maximization (yang biasanya digunakan untuk menyelesaikan masalah optimasi di MLE)?

Sobi

Jawaban:

Estimasi kemungkinan maksimum adalah pendekatan umum untuk memperkirakan parameter dalam model statistik dengan memaksimalkanfungsi kemungkinan didefinisikan sebagai

L (θ | X) = f (X | θ)

$L(\theta|X) = f(X|\theta)$

yaitu, probabilitas memperoleh data diberi beberapa nilai parameter . Mengetahui fungsi kemungkinan untuk masalah yang diberikan, Anda dapat mencari yang memaksimalkan kemungkinan mendapatkan data yang Anda miliki. Kadang-kadang kita telah mengetahui estimator, mis. Rata-rata aritmatika adalah estimator MLE untuk parameter untuk distribusi normal , tetapi dalam kasus lain Anda dapat menggunakan metode berbeda yang mencakup penggunaan algoritma optimasi. Pendekatan ML tidak memberi tahu Anda bagaimana menemukan nilai optimal - Anda dapat mengambil tebakan dan menggunakan kemungkinan untuk membandingkan tebakan mana yang lebih baik - itu hanya memberi tahu Anda bagaimana Anda dapat membandingkan jika satu nilai dari $X$ $\theta$ $\theta$ $\mu$ $\theta$ "lebih mungkin" daripada yang lain. $\theta$

Gradient descent adalah algoritma optimasi . Anda dapat menggunakan algoritma ini untuk menemukan minimum (atau maksimum, maka itu disebut gradient ascent ) dari berbagai fungsi. Algoritma tidak benar-benar peduli apa fungsi yang diminimalisir, hanya melakukan apa yang diminta. Jadi dengan menggunakan algoritme pengoptimalan, Anda harus tahu, bagaimana mungkin Anda bisa tahu apakah satu nilai dari parameter yang diminati "lebih baik" daripada yang lain. Anda harus menyediakan algoritma Anda beberapa fungsi untuk meminimalkan dan algoritma akan berurusan dengan menemukan minimumnya.

Anda dapat memperoleh perkiraan kemungkinan maksimum menggunakan metode yang berbeda dan salah satunya menggunakan algoritma optimasi. Di sisi lain, gradient descent dapat juga digunakan untuk memaksimalkan fungsi selain fungsi kemungkinan.

Tim
sumber

@ ML_Pro Saya memberikan dua tautan tempat Anda dapat menemukan informasi terperinci, saya rasa tidak perlu menduplikasi jawaban ini.

Tim

@ ML_Pro seperti yang saya tulis dalam jawaban saya, itu adalah hal - hal yang berbeda dan Anda tidak dapat membandingkannya ...

Tim

Ya tetapi MLE adalah pendekatan umum dan GD hanyalah sebuah algoritma yang dapat Anda gunakan untuk meminimalkan sejumlah fungsi yang berbeda. Ini seperti Anda membandingkan aljabar dengan kalkulator saku ...

Tim

MLE menentukan fungsi tujuan (fungsi kemungkinan); GD menemukan solusi optimal untuk masalah setelah fungsi objektif ditentukan. Anda dapat menggunakan GD (atau algoritme pengoptimalan lainnya) untuk menyelesaikan masalah kemungkinan maksimum, dan hasilnya akan menjadi penaksir kemungkinan maksimum.

jbowman

@ ML_Pro ini dijelaskan dalam tautan yang saya berikan dalam jawaban saya. Singkatnya: ya itu adalah produk pdf. Produk karena kami menganggap bahwa data tersebut iid. Ini didefinisikan dalam istilah pdf karena kita berbicara tentang model probabilitas.

Tim

-3

Biasanya, ketika kita mendapatkan fungsi kemungkinan

f = l (θ)

$f = l(\theta)$ , lalu kita memecahkan persamaan

\frac{d f}{d θ} = 0

$\frac{ df }{ d\theta } = 0$ .

kita bisa mendapatkan nilai

θ

$\theta$ yang dapat memberikan nilai maksimal atau minimal f, selesai!

Tapi kemungkinan fungsi regresi logistik tidak ada solusi bentuk tertutup dengan cara ini. Jadi kita harus menggunakan metode lain, seperti gradient descent.

Belter
sumber

@Tim, Anda dapat melihat sesuatu dari sini, courses.cs.washington.edu/courses/cse446/13sp/slides/…

Belter

"Koefisien regresi biasanya diperkirakan menggunakan estimasi kemungkinan maksimum" ( en.wikipedia.org/wiki/Logistic_regress )

Tim

Perkiraan kemungkinan maksimum adalah sejenis metode untuk memperkirakan koefisien regresi, tetapi kami memiliki beberapa cara untuk menemukan solusi MLE. Jadi menggunakan likelihood function+ gradient descent(yang untuk mendapatkan solusi fungsi kemungkinan) masih merupakan cara untuk melakukan MLE.

Belter

Anda juga dapat melihat kalimat ini

Unlike linear regression, we can no longer write down the MLE in closed form. Instead, we need to use an optimization algorithm to compute it. For this, we need to derive the gradient and Hessian.

dari Machine Learning: Perspektif Probabilistik, Kevin Murphy.

Belter

... maka kata-kata dari jawaban Anda membingungkan karena sepertinya Anda mengatakan bahwa untuk regresi logistik kami tidak menggunakan ML dan sebaliknya kami menggunakan GD.

Tim