Mengapa seseorang harus menggunakan EM vs mengatakan, Gradient Descent with MLE?

11

Secara matematis, sering terlihat bahwa ekspresi dan algoritme untuk Ekspektasi Maksimalisasi (EM) sering lebih sederhana untuk model campuran, namun tampaknya hampir semua (jika bukan semuanya) yang dapat diselesaikan dengan EM juga dapat diselesaikan dengan MLE (oleh, katakanlah, metode Newton-Raphson, untuk ekspresi yang tidak tertutup).

Namun, dalam literatur, tampaknya banyak yang lebih menyukai EM daripada metode lain (termasuk minimalisasi LL dengan, katakanlah, gradient descent); apakah karena kesederhanaannya dalam model-model ini? Atau karena alasan lain?

Guillermo Angeris
sumber

Jawaban:

15

Saya pikir ada beberapa kawat silang di sini. MLE, sebagaimana dimaksud dalam literatur statistik, adalah Estimasi Kemungkinan Maksimum. Ini adalah estimator . Algoritma EM, seperti namanya, adalah algoritma yang sering digunakan untuk menghitung MLE. Ini adalah apel dan jeruk.

Ketika MLE tidak dalam bentuk tertutup, algoritma yang umum digunakan untuk menemukan ini adalah algoritma Newton-Raphson, yang mungkin menjadi apa yang Anda maksud ketika Anda menyatakan "juga dapat diselesaikan dengan MLE". Dalam banyak masalah, algoritma ini bekerja sangat baik; untuk masalah "vanilla", biasanya sulit dikalahkan.

Namun, ada banyak masalah ketika gagal, seperti model campuran. Pengalaman saya dengan berbagai masalah komputasi adalah bahwa walaupun algoritma EM tidak selalu merupakan pilihan tercepat, seringkali merupakan yang termudah karena berbagai alasan. Banyak kali dengan model novel, algoritma pertama yang digunakan untuk menemukan MLE adalah algoritma EM. Kemudian, beberapa tahun kemudian, para peneliti mungkin menemukan bahwa algoritma yang jauh lebih rumit secara signifikan lebih cepat. Tetapi algoritma ini non-trival.

Selain itu, saya berspekulasi bahwa banyak popularitas EM-algoritma adalah rasa statistik itu, membantu para ahli statistik merasa dibedakan dari analis numerik.

Cliff AB
sumber
3
"... membantu ahli statistik merasa dibedakan dari analis numerik" --- Saya pasti akan menyimpan baris ini untuk digunakan nanti.
Guillermo Angeris
Selain itu (saya baru saja memperbarui pertanyaan, karena itu adalah niat awal saya untuk juga memasukkan ini), tetapi mengapa kita harus menggunakan EM daripada algoritma seperti Gradient Descent? Apa preferensi untuk yang satu? Kecepatan konvergensi, mungkin?
Guillermo Angeris
1
Dalam pekerjaan yang telah saya lakukan, keuntungan terbesar dari algoritma-EM adalah fakta bahwa nilai parameter yang diusulkan selalu valid: yaitu probabilitas massa antara [0,1] yang berjumlah 1, yang belum tentu demikian halnya untuk keturunan gradien. Keuntungan lain adalah bahwa Anda tidak harus menghitung kemungkinan untuk memastikannya telah meningkat pada setiap langkah. Ini adalah masalah besar jika pembaruan dapat dihitung dengan cepat, tetapi kemungkinan tidak bisa.
Cliff AB
3
Aspek lain yang sangat bagus dari algoritma EM: cenderung jauh lebih stabil secara numerik daripada metode berbasis gradien. Penelitian saya dimulai dengan algoritma EM dan butuh waktu 4 tahun untuk menyadari betapa tidak stabilnya ketidakstabilan numerik (yaitu ketika saya mulai menggunakan algoritma non-EM).
Cliff AB
menarik. Saya kira pertanyaan ini baru saja muncul lagi untuk saya, tetapi bagaimana dengan melakukan sesuatu yang mirip dengan optimasi cembung (pada sub-gradien) di mana Anda pada dasarnya melakukan gradient descent dan kemudian hanya memproyeksikan pada set yang layak? Maksudku, kedengarannya jauh lebih sulit daripada EM, tetapi apa yang akan menjadi kerugian lainnya?
Guillermo Angeris