Saya bertanya-tanya apakah estimasi kemungkinan maksimum pernah digunakan dalam statistik. Kami belajar konsep itu tetapi saya bertanya-tanya kapan itu benar-benar digunakan. Jika kita mengasumsikan distribusi data, kita menemukan dua parameter, satu untuk mean dan satu untuk varians, tetapi apakah Anda benar-benar menggunakannya dalam situasi nyata?
Adakah yang bisa memberi tahu saya kasus sederhana yang digunakan untuk itu?
estimation
maximum-likelihood
pengguna122358
sumber
sumber
Jawaban:
Pasti! Sebenarnya cukup banyak - tetapi tidak selalu.
Ketika orang memiliki model distribusi parametrik, mereka cukup sering memilih untuk menggunakan estimasi kemungkinan maksimum. Ketika model sudah benar, ada sejumlah properti berguna dari penduga kemungkinan maksimum.
Sebagai contoh - penggunaan model linier umum cukup luas dan dalam hal itu parameter yang menggambarkan rata-rata diperkirakan dengan kemungkinan maksimum.
Dapat terjadi bahwa beberapa parameter diperkirakan dengan kemungkinan maksimum dan yang lainnya tidak. Sebagai contoh, pertimbangkan Poisson GLM yang overdispersi - parameter dispersi tidak akan diestimasi dengan kemungkinan maksimum, karena MLE tidak berguna dalam kasus tersebut.
Yah, kadang-kadang Anda mungkin memiliki dua, tetapi kadang-kadang Anda memiliki satu parameter, kadang tiga atau empat atau lebih.
Apakah Anda memikirkan model tertentu? Ini tidak selalu terjadi. Pertimbangkan memperkirakan parameter distribusi eksponensial atau distribusi Poisson, atau distribusi binomial. Dalam setiap kasus tersebut, ada satu parameter dan varians adalah fungsi dari parameter yang menggambarkan rata-rata.
Atau pertimbangkan distribusi gamma umum , yang memiliki tiga parameter. Atau distribusi beta empat parameter , yang memiliki (mungkin tidak mengejutkan) empat parameter. Perhatikan juga bahwa (tergantung pada parameterisasi tertentu) mean atau varians atau keduanya mungkin tidak diwakili oleh parameter tunggal tetapi oleh fungsi beberapa dari mereka.
Sebagai contoh, distribusi gamma, di mana ada tiga parameterisasi yang melihat penggunaan yang cukup umum - dua yang paling umum memiliki kedua mean dan varians yang berfungsi dari dua parameter.
Biasanya dalam model regresi atau GLM, atau model bertahan hidup (di antara banyak jenis model lainnya), model mungkin tergantung pada beberapa prediktor, dalam hal ini distribusi yang terkait dengan setiap pengamatan di bawah model mungkin memiliki salah satu parameter sendiri (atau bahkan beberapa parameter) yang terkait dengan banyak variabel prediktor ("variabel independen").
sumber
Sementara estimator kemungkinan maksimum dapat terlihat mencurigakan mengingat asumsi pada distribusi data, Kuasi Estimasi Kemungkinan Maksimal sering digunakan. Idenya adalah memulai dengan mengasumsikan distribusi dan menyelesaikan untuk MLE, kemudian menghapus asumsi distribusi eksplisit dan alih-alih melihat bagaimana kinerja estimator Anda dalam kondisi yang lebih umum. Jadi Kuasi MLE hanya menjadi cara cerdas untuk mendapatkan estimator, dan sebagian besar pekerjaan kemudian menurunkan properti estimator. Karena asumsi distribusi dijatuhkan, kuasi MLE biasanya tidak memiliki sifat efisiensi yang bagus.
sumber
Estimasi kemungkinan maksimum sering digunakan dalam pembelajaran mesin untuk melatih:
Perhatikan bahwa dalam beberapa kasus seseorang lebih suka menambahkan beberapa regularisasi, yang kadang-kadang setara dengan estimasi posteriori Maksimum , misalnya Mengapa penalti Lasso setara dengan eksponensial ganda (Laplace) sebelumnya? .
sumber
Kasus yang sangat khas adalah dalam regresi logistik. Regresi logistik adalah teknik yang sering digunakan dalam pembelajaran mesin untuk mengklasifikasikan poin data. Misalnya, regresi logistik dapat digunakan untuk mengklasifikasikan apakah email adalah spam atau bukan spam atau mengklasifikasikan apakah seseorang memiliki atau tidak memiliki penyakit.
sumber
Kami menggunakan MLE sepanjang waktu, tetapi kami mungkin tidak merasakannya. Saya akan memberikan dua contoh sederhana untuk ditampilkan.
Contoh 1
Mengapa menggunakan penghitungan? ini sebenarnya secara implisit menggunakan MLE! Di mana masalahnya
Untuk menyelesaikan persamaan, kita perlu beberapa kalkulus, tetapi kesimpulannya adalah penghitungan.
Contoh 2
Bagaimana kita mengestimasi parameter distribusi Gaussian dari data? Kami menggunakan mean empiris sebagai taksiran rata-rata dan varians empiris sebagai taksiran varians, yang juga berasal dari MLE !.
sumber
Beberapa kemungkinan penggunaan maksimum dalam komunikasi nirkabel:
sumber