Mengapa MLE masuk akal, mengingat probabilitas sampel individu adalah 0?

13

Ini semacam pemikiran aneh yang saya miliki ketika meninjau beberapa statistik lama dan untuk beberapa alasan saya sepertinya tidak bisa memikirkan jawabannya.

PDF kontinu memberi tahu kita kepadatan nilai pengamatan dalam rentang tertentu. Yaitu, jika XN(μ,σ2) , misalnya, maka probabilitas bahwa realisasi jatuh antara a dan b hanyalah abϕ(x)dx mana ϕ adalah kepadatan standar normal.

Ketika kita berpikir tentang melakukan perkiraan MLE dari parameter, mengatakan dari μ , kita menulis kepadatan bersama, mengatakan N , variabel acak X1..XN dan bedakan log-likelihood wrt ke μ , atur sama dengan 0 dan pecahkan untukμ . Interpretasi yang sering diberikan adalah "diberikan data, yang parameternya membuat fungsi kerapatan ini paling masuk akal".

Bagian yang menggangguku adalah ini: kami memiliki kepadatan N rv, dan probabilitas bahwa kami mendapatkan realisasi tertentu, katakan sampel kami, adalah tepat 0. Mengapa bahkan masuk akal untuk memaksimalkan kepadatan bersama yang diberikan data kami ( karena sekali lagi probabilitas untuk mengamati sampel aktual kita adalah tepat 0)?

Satu-satunya rasionalisasi yang dapat saya buat adalah bahwa kami ingin membuat PDF memuncak sebanyak mungkin di sekitar sampel yang kami amati sehingga integral di wilayah tersebut (dan karena itu kemungkinan mengamati hal-hal di wilayah ini) adalah yang tertinggi.

Alex
sumber
1
Untuk alasan yang sama kami menggunakan probabilitas densitas stats.stackexchange.com/q/4220/35989
Tim
Saya mengerti (saya pikir) mengapa masuk akal untuk menggunakan kepadatan. Apa yang saya tidak mengerti adalah mengapa masuk akal untuk memaksimalkan kepadatan tergantung pada pengamatan sampel yang memiliki 0 kemungkinan terjadi.
Alex
2
Karena kepadatan probabilitas memberi tahu kami nilai apa yang relatif lebih mungkin daripada yang lain.
Tim
Jika Anda punya waktu untuk menjawab pertanyaan sepenuhnya, saya pikir itu akan lebih membantu bagi saya dan orang berikutnya.
Alex
Karena, untungnya, kemungkinan itu bukan probabilitas!
AdamO

Jawaban:

18

Probabilitas setiap sampel, Pθ(X=x) , sama dengan nol dan satu sampel diwujudkan dengan menggambar dari distribusi probabilitas. Oleh karena itu probabilitas adalah alat yang salah untuk mengevaluasi sampel dan kemungkinan itu terjadi. Kemungkinan statistik, seperti yang didefinisikan oleh Fisher (1912), didasarkan pada argumen pembatas dari kemungkinan mengamati sampel x dalam interval panjang δ ketika δ pergi ke nol (mengutip dari Aldrich, 1997) :

Aldrich, J. (1997) Statistical Science12, 162-176

ketika menormalkan kembali probabilitas ini dengan δ . Istilah fungsi kemungkinan hanya diperkenalkan di Fisher (1921) dan kemungkinan maksimum di Fisher (1922).

Meskipun ia pergi di bawah denominasi "nilai yang paling mungkin", dan menggunakan prinsip probabilitas terbalik (inferensi Bayesian) dengan flat sebelumnya, Carl Friedrich Gauß telah mendapatkan di tahun 1809 penaksir kemungkinan maksimum untuk parameter varians dari distribusi Normal. Hald (1999) menyebutkan beberapa kejadian lain dari penduga kemungkinan maksimum sebelum makalah Fisher 1912, yang menetapkan prinsip umum.

Pembenaran selanjutnya dari pendekatan kemungkinan maksimum adalah bahwa, karena kemungkinan log yang dinormalisasi ulang sampel (x1,,xn)

1ni=1nlogfθ(xi)
konvergen ke [Hukum Bilangan Besar]
E[logfθ(X)]=logfθ(x)f0(x)dx
(di manaf0 menunjukkan kepadatan sebenarnya dari sampel iid), memaksimalkan kemungkinan [sebagai fungsiθ ] secara asimtotik setara dengan meminimalkan [dalamθ ] divergensi Kullback-Leibler
logf0(x)fθ(x)f0(x)dx=logf0(x)f0(x)dxconstantin θlogfθ(x)f0(x)dx
fθ

Xi'an
sumber
Terima kasih atas jawabannya. Bisakah Anda sedikit memperluas argumen KL? Saya tidak melihat bagaimana ini terjadi segera.
Alex