Estimasi kemungkinan maksimum seringkali menghasilkan estimasi bias (mis. Estimasi untuk varians sampel bias untuk distribusi Gaussian).
Lalu apa yang membuatnya begitu populer? Mengapa persisnya itu digunakan begitu banyak? Juga, apa yang secara khusus membuatnya lebih baik daripada pendekatan alternatif - metode momen?
Juga, saya perhatikan bahwa untuk Gaussian, penskalaan sederhana dari penaksir MLE membuatnya tidak bias. Mengapa penskalaan ini bukan prosedur standar? Maksud saya - Mengapa setelah perhitungan MLE, tidaklah rutin untuk menemukan penskalaan yang diperlukan untuk membuat estimator tidak bias? Praktik standar tampaknya menjadi perhitungan sederhana dari estimasi MLE, kecuali tentu saja untuk kasus Gaussian yang terkenal di mana faktor penskalaannya diketahui dengan baik.
Jawaban:
Ketidakcocokan belum tentu sangat penting.
Selain keadaan yang sangat terbatas, sebagian besar penaksir yang berguna bias, namun diperoleh.
Jika dua penaksir memiliki varian yang sama, seseorang dapat dengan mudah me-mount argumen untuk memilih yang tidak bias daripada yang bias, tetapi itu adalah situasi yang tidak biasa terjadi (yaitu, Anda mungkin lebih suka ketidakberpihakan , ceteris paribus - tetapi mereka ceteris sial hampir tidak pernah paribus ).
Lebih khusus, jika Anda menginginkan ketidakberpihakan Anda akan menambahkan beberapa variasi untuk mendapatkannya, dan kemudian pertanyaannya adalah mengapa Anda melakukan itu ?
Bias adalah seberapa jauh nilai yang diharapkan dari penaksir saya akan terlalu tinggi rata-rata (dengan bias negatif menunjukkan terlalu rendah).
Ketika saya mempertimbangkan penduga sampel kecil, saya tidak terlalu peduli tentang itu. Saya biasanya lebih tertarik pada seberapa jauh penaksir saya akan dalam hal ini - jarak khas saya dari kanan ... sesuatu seperti kesalahan root-mean-square atau kesalahan absolut rata-rata akan lebih masuk akal.
Jadi jika Anda menyukai varians rendah dan bias rendah, meminta katakanlah penduga kesalahan kuadrat minimum rata-rata akan masuk akal; ini sangat jarang tidak bias.
Bias dan ketidakberpihakan adalah gagasan yang berguna untuk diperhatikan, tetapi itu bukan properti yang sangat berguna untuk dicari kecuali Anda hanya membandingkan estimator dengan varian yang sama.
Pengukur ML cenderung varians rendah; mereka biasanya bukan MSE minimum, tetapi mereka sering memiliki MSE yang lebih rendah daripada memodifikasi mereka menjadi tidak bias (ketika Anda bisa melakukannya sama sekali) akan memberi Anda.
Sebagai contoh, pertimbangkan memperkirakan varians ketika sampling dari distribusi normal σ (memang MMSE untuk varian selalu memiliki penyebut yang lebih besar daripadan-1).σ^2MMSE= S2n + 1, σ^2MLE= S2n, σ^2Unb= S2n - 1 n - 1
sumber
MLE menghasilkan nilai parameter model yang paling mungkin , mengingat model dan data yang ada - yang merupakan konsep yang cukup menarik. Mengapa Anda memilih nilai parameter yang membuat data yang diamati kurang memungkinkan ketika Anda dapat memilih nilai yang membuat data yang paling mungkin diamati di seluruh rangkaian nilai? Apakah Anda ingin mengorbankan fitur ini untuk ketidakberpihakan? Saya tidak mengatakan jawabannya selalu jelas, tetapi motivasi untuk MLE cukup kuat dan intuitif.
Juga, MLE mungkin lebih banyak diterapkan daripada metode momen, sejauh yang saya tahu. MLE tampaknya lebih alami dalam kasus variabel laten; misalnya, model rata-rata bergerak (MA) atau model heteroskedastisitas kondisional autoregresif umum (GARCH) dapat diestimasi secara langsung oleh MLE (secara langsung maksud saya cukup untuk menentukan fungsi kemungkinan dan mengirimkannya ke rutin optimasi) - tetapi bukan dengan metode momen (meskipun solusi tidak langsung memanfaatkan metode momen mungkin ada).
sumber
Sebenarnya, penskalaan estimasi kemungkinan maksimum untuk mendapatkan estimasi tidak bias adalah prosedur standar dalam banyak masalah estimasi. Alasan untuk itu adalah bahwa mle adalah fungsi dari statistik yang cukup dan oleh teorema Rao-Blackwell jika Anda dapat menemukan estimator yang tidak bias berdasarkan statistik yang cukup, maka Anda memiliki Estimator Tidak Bervariasi Minimum.
Saya tahu bahwa pertanyaan Anda lebih umum dari itu, tetapi yang ingin saya tekankan adalah bahwa konsep-konsep kunci terkait erat dengan kemungkinan dan perkiraan berdasarkannya. Perkiraan ini mungkin tidak bias dalam sampel terbatas tetapi mereka asimptotik sehingga dan lebih dari itu mereka asimtotik efisien, yaitu mereka mencapai batas varians Cramer-Rao untuk penduga tidak bias, yang mungkin tidak selalu menjadi kasus untuk penduga MOM.
sumber
Untuk menjawab pertanyaan Anda tentang mengapa MLE sangat populer, pertimbangkan bahwa meskipun bias, itu konsisten dalam kondisi standar. Selain itu, ia efisien secara asimptot, sehingga setidaknya untuk sampel besar, MLE cenderung melakukan dengan baik atau lebih baik seperti penduga lain yang Anda buat. Akhirnya, MLE ditemukan dengan resep sederhana; ambil fungsi kemungkinan dan maksimalkan. Dalam beberapa kasus, resep itu mungkin sulit untuk diikuti, tetapi untuk sebagian besar masalah, itu bukan resepnya. Plus, setelah Anda memiliki perkiraan ini, kami dapat memperoleh kesalahan standar asimptotik segera menggunakan informasi Fisher. Tanpa menggunakan informasi Fisher, seringkali sangat sulit untuk mendapatkan batas kesalahan.
Inilah sebabnya mengapa estimasi MLE sangat sering menjadi penaksir (kecuali Anda seorang Bayesian); itu sederhana untuk diterapkan dan cenderung sama baiknya jika tidak lebih baik dari hal lain yang perlu Anda lakukan lebih banyak pekerjaan untuk memasak.
sumber
Saya menambahkan bahwa kadang-kadang (sering) kita menggunakan penaksir MLE karena itulah yang kita dapatkan, bahkan jika di dunia yang ideal itu tidak akan seperti yang kita inginkan. (Saya sering menganggap statistik sebagai teknik, di mana kami menggunakan apa yang kami dapatkan, bukan yang kami inginkan.) Dalam banyak kasus, mudah untuk mendefinisikan dan menyelesaikan MLE, dan kemudian mendapatkan nilai menggunakan pendekatan berulang. Sedangkan untuk parameter yang diberikan dalam situasi tertentu mungkin ada penaksir yang lebih baik (untuk beberapa nilai "lebih baik"), tetapi untuk menemukannya mungkin perlu menjadi sangat pintar; dan ketika Anda selesai menjadi pintar, Anda masih memiliki estimator yang lebih baik untuk satu masalah tertentu.
sumber