Ini semacam pemikiran aneh yang saya miliki ketika meninjau beberapa statistik lama dan untuk beberapa alasan saya sepertinya tidak bisa memikirkan jawabannya.
PDF kontinu memberi tahu kita kepadatan nilai pengamatan dalam rentang tertentu. Yaitu, jika , misalnya, maka probabilitas bahwa realisasi jatuh antara dan hanyalah mana adalah kepadatan standar normal.
Ketika kita berpikir tentang melakukan perkiraan MLE dari parameter, mengatakan dari , kita menulis kepadatan bersama, mengatakan , variabel acak dan bedakan log-likelihood wrt ke , atur sama dengan 0 dan pecahkan untuk . Interpretasi yang sering diberikan adalah "diberikan data, yang parameternya membuat fungsi kerapatan ini paling masuk akal".
Bagian yang menggangguku adalah ini: kami memiliki kepadatan rv, dan probabilitas bahwa kami mendapatkan realisasi tertentu, katakan sampel kami, adalah tepat 0. Mengapa bahkan masuk akal untuk memaksimalkan kepadatan bersama yang diberikan data kami ( karena sekali lagi probabilitas untuk mengamati sampel aktual kita adalah tepat 0)?
Satu-satunya rasionalisasi yang dapat saya buat adalah bahwa kami ingin membuat PDF memuncak sebanyak mungkin di sekitar sampel yang kami amati sehingga integral di wilayah tersebut (dan karena itu kemungkinan mengamati hal-hal di wilayah ini) adalah yang tertinggi.
Jawaban:
Probabilitas setiap sampel,Pθ(X=x) , sama dengan nol dan satu sampel diwujudkan dengan menggambar dari distribusi probabilitas. Oleh karena itu probabilitas adalah alat yang salah untuk mengevaluasi sampel dan kemungkinan itu terjadi. Kemungkinan statistik, seperti yang didefinisikan oleh Fisher (1912), didasarkan pada argumen pembatas dari kemungkinan mengamati sampel x dalam interval panjang δ ketika δ pergi ke nol (mengutip dari Aldrich, 1997) :
ketika menormalkan kembali probabilitas ini denganδ . Istilah fungsi kemungkinan hanya diperkenalkan di Fisher (1921) dan kemungkinan maksimum di Fisher (1922).
Meskipun ia pergi di bawah denominasi "nilai yang paling mungkin", dan menggunakan prinsip probabilitas terbalik (inferensi Bayesian) dengan flat sebelumnya, Carl Friedrich Gauß telah mendapatkan di tahun 1809 penaksir kemungkinan maksimum untuk parameter varians dari distribusi Normal. Hald (1999) menyebutkan beberapa kejadian lain dari penduga kemungkinan maksimum sebelum makalah Fisher 1912, yang menetapkan prinsip umum.
Pembenaran selanjutnya dari pendekatan kemungkinan maksimum adalah bahwa, karena kemungkinan log yang dinormalisasi ulang sampel(x1,…,xn)
1n∑i=1nlogfθ(xi) konvergen ke [Hukum Bilangan Besar]E[logfθ(X)]=∫logfθ(x)f0(x)dx (di manaf0 menunjukkan kepadatan sebenarnya dari sampel iid), memaksimalkan kemungkinan [sebagai fungsiθ ] secara asimtotik setara dengan meminimalkan [dalamθ ] divergensi Kullback-Leibler
∫logf0(x)fθ(x)f0(x)dx=∫logf0(x)f0(x)dxconstantin θ−∫logfθ(x)f0(x)dx fθ
sumber