Mengapa kemungkinan maksimum dan kemungkinan tidak diharapkan?

22

Mengapa begitu umum untuk mendapatkan estimasi kemungkinan maksimum dari parameter, tetapi Anda hampir tidak pernah mendengar tentang perkiraan parameter kemungkinan yang diharapkan (yaitu, berdasarkan pada nilai yang diharapkan daripada mode fungsi kemungkinan)? Apakah ini terutama karena alasan historis, atau karena alasan teknis atau teoretis yang lebih substantif?

Apakah akan ada keuntungan dan / atau kerugian yang signifikan untuk menggunakan estimasi kemungkinan yang diharapkan daripada estimasi kemungkinan maksimum?

Apakah ada beberapa daerah di mana perkiraan kemungkinan yang diharapkan secara rutin digunakan?

Jake Westfall
sumber
9
Nilai yang diharapkan sehubungan dengan distribusi probabilitas apa? ML biasanya diterapkan dalam analisis non-Bayesian di mana (a) data diberikan (dan diperbaiki) dan (b) parameter diperlakukan sebagai konstanta (tidak diketahui): tidak ada variabel acak sama sekali.
whuber

Jawaban:

15

Metode yang diusulkan (setelah menormalkan kemungkinan menjadi kerapatan) setara dengan memperkirakan parameter menggunakan flat sebelum semua parameter dalam model dan menggunakan rata-rata distribusi posterior sebagai estimator Anda. Ada kasus di mana menggunakan flat sebelumnya bisa membuat Anda mendapat masalah karena Anda tidak berakhir dengan distribusi posterior yang tepat jadi saya tidak tahu bagaimana Anda akan memperbaiki situasi itu di sini.

Tetap dalam konteks yang sering, metode ini tidak masuk akal karena kemungkinan tidak membentuk kepadatan probabilitas dalam sebagian besar konteks dan tidak ada yang tersisa secara acak sehingga mengambil harapan tidak masuk akal. Sekarang kita bisa memformalkan ini sebagai operasi yang kita terapkan pada kemungkinan setelah fakta untuk mendapatkan estimasi tetapi saya tidak yakin seperti apa sifat frequentist dari estimator ini (dalam kasus di mana estimasi tersebut sebenarnya ada).

Keuntungan:

  • Ini dapat memberikan perkiraan dalam beberapa kasus di mana MLE sebenarnya tidak ada.
  • Jika Anda tidak keras kepala, itu dapat memindahkan Anda ke pengaturan Bayesian (dan itu mungkin cara alami untuk melakukan inferensi dengan jenis perkiraan ini). Ok jadi tergantung pada pandangan Anda, ini mungkin bukan keuntungan - tapi bagi saya.

Kekurangan:

  • Ini juga tidak dijamin ada.
  • Jika kami tidak memiliki ruang parameter cembung, estimasi mungkin bukan nilai yang valid untuk parameter tersebut.
  • Prosesnya tidak berbeda dengan reparameterisasi. Karena prosesnya setara dengan meletakkan flat di depan parameter Anda, maka akan membuat perbedaan apa parameter itu (apakah kita berbicara tentang menggunakan sebagai parameter atau kita menggunakan )σσ2
Alasan
sumber
7
+1 Satu masalah besar dengan mengasumsikan distribusi parameter yang seragam adalah bahwa masalah ML sering diformulasikan ulang dengan mengeksploitasi invariansi solusi mereka untuk reparameterisasi: namun, itu akan mengubah distribusi sebelumnya pada parameter. Dengan demikian mengambil "harapan" seolah-olah parameter memiliki distribusi seragam adalah artefak yang sewenang-wenang dan dapat menyebabkan hasil yang salah dan tidak berarti.
whuber
1
Poin bagus! Saya akan menyebutkan itu juga tetapi lupa untuk membawanya saat mengetik sisanya.
Dason
Sebagai catatan, kemungkinan maksimum juga tidak berbeda dengan reparametrization.
Neil G
1
@ NeilG Ya itu? Mungkin kita mengacu pada ide yang berbeda. Apa maksudmu saat mengatakan itu?
Dason
hal[0,1]α=β=2Hai[0,)α=β=2121314
12

Salah satu alasannya adalah bahwa estimasi kemungkinan maksimum lebih mudah: Anda menetapkan turunan dari kemungkinan wrt parameter ke nol dan menyelesaikan parameter. Mengambil ekspektasi berarti mengintegrasikan kemungkinan kali setiap parameter.

{xsaya}μ=E(x)χ=E(x2)

Dalam beberapa kasus, parameter kemungkinan maksimum sama dengan parameter kemungkinan yang diharapkan. Sebagai contoh, rata-rata kemungkinan yang diharapkan dari distribusi normal di atas sama dengan kemungkinan maksimum karena sebelumnya pada rata-rata adalah normal, dan mode dan rata-rata dari distribusi normal bertepatan. Tentu saja itu tidak akan berlaku untuk parameter lain (namun Anda menetapkannya).

Saya pikir alasan yang paling penting mungkin mengapa Anda menginginkan ekspektasi parameter? Biasanya, Anda mempelajari suatu model dan hanya nilai parameter yang Anda inginkan. Jika Anda akan mengembalikan nilai tunggal, bukankah kemungkinan maksimum adalah yang terbaik yang dapat Anda kembalikan?

Neil G
sumber
6
Sehubungan dengan baris terakhir Anda: Mungkin - mungkin tidak. Itu tergantung pada fungsi kerugian Anda. Saya hanya bermain-main dengan ide Jake dan sepertinya untuk kasus dengan X ~ Unif (0, theta) bahwa maks (X) * (n-1) / (n-2), yang memberikan metode Jake, memiliki yang lebih baik MSE daripada max (X) yang merupakan MLE (setidaknya simulasi menyiratkan ini ketika n> = 5). Jelas contoh Unif (0, theta) tidak khas tetapi itu menunjukkan bahwa ada metode lain yang masuk akal untuk mendapatkan estimator.
Dason
4
@ Alasan Salah satu teknik frequentist standar (dan kuat) untuk menemukan estimator yang baik ( yaitu , dapat diterima) adalah untuk menghitung estimator Bayes untuk berbagai prior. (Lihat, misalnya , buku Lehmann tentang estimasi titik.) Anda baru saja menemukan kembali satu penaksir tersebut.
whuber
Terima kasih atas jawaban Anda, Neil! Anda mengatakan bahwa mendapatkan estimasi parameter melalui diferensiasi lebih mudah dibandingkan dengan integrasi, dan saya pasti bisa melihat bagaimana ini akan berlaku untuk masalah sederhana (misalnya, level pena-dan-kertas atau tidak terlalu jauh melampaui). Tetapi untuk masalah yang jauh lebih rumit di mana kita harus mengandalkan metode numerik, bukankah sebenarnya lebih mudah menggunakan integrasi? Dalam praktiknya, menemukan MLE dapat menjadi masalah optimisasi yang cukup sulit. Tidak bisakah secara numerik mendekati integral yang sebenarnya lebih mudah secara komputasi? Atau apakah itu tidak mungkin benar dalam banyak kasus?
Jake Westfall
@JakeWestfall: Bagaimana Anda akan mengambil ekspektasi atas ruang parameter menggunakan metode numerik? Dalam ruang model yang rumit dengan ruang parameter besar, Anda tidak dapat mengintegrasikan seluruh hal mengevaluasi probabilitas setiap model (pengaturan parameter). Anda biasanya akan menjalankan EM dimana estimasi parameter terjadi pada langkah-M sehingga setiap parameter adalah salah satu "masalah sederhana" seperti yang Anda katakan, dan untuk parameter kemungkinan maksimum harapan langsung dari statistik yang cukup.
Neil G
@ NeilG Nah, Dason menunjukkan bahwa metode yang saya bahas adalah (setelah normalisasi) setara dengan estimasi Bayesian dengan flat sebelum dan kemudian menggunakan rata-rata posterior sebagai estimasi. Jadi dalam menanggapi "Bagaimana Anda akan mengambil ekspektasi atas ruang parameter menggunakan metode numerik?" Saya kira saya berpikir kita bisa menggunakan salah satu metode ini: bayesian-inference.com/numericalapproximation Ada pemikiran tentang ini?
Jake Westfall