Mengapa estimasi kemungkinan maksimum dianggap sebagai teknik yang sering dilakukan

19

Statistik Frequentist bagi saya identik dengan mencoba membuat keputusan yang baik untuk semua sampel yang mungkin. Yaitu, aturan keputusan frequentist harus selalu berusaha meminimalkan risiko frequentist, yang tergantung pada fungsi kerugian dan keadaan sebenarnya :L θ 0δLθ0

Rfreq=Eθ0(L(θ0,δ(Y))

Bagaimana estimasi kemungkinan maksimum terhubung ke risiko frequentist? Mengingat bahwa itu adalah teknik estimasi titik yang paling sering digunakan oleh frequentist, pasti ada beberapa koneksi. Sejauh yang saya tahu, estimasi kemungkinan maksimum lebih tua dari konsep risiko frequentist tetapi masih harus ada koneksi mengapa lagi begitu banyak orang mengklaim bahwa itu adalah teknik frequentist?

Koneksi terdekat yang saya temukan adalah itu

"Untuk model parametrik yang memenuhi kondisi keteraturan yang lemah, penaksir kemungkinan maksimum adalah sekitar minimum" Wassermann 2006, p. 201 "

Jawaban yang diterima mengaitkan estimasi titik kemungkinan maksimum lebih kuat dengan risiko frequentist atau memberikan definisi formal alternatif dari inferensi frequentist yang menunjukkan bahwa MLE adalah teknik inferensi frequentist.

Julian Karls
sumber
6
ML tidak memperhatikan risiko sama sekali! Itu, pada kenyataannya, adalah bagian dari kritik teoretis keputusan-sering ML. Saya menduga pertanyaan ini mungkin sulit dijawab karena secara implisit menggunakan "Frequentist" dalam dua pengertian yang tidak kompatibel - yang satu adalah decision-theoretic, merujuk pada fungsi kerugian, dan yang lainnya secara implisit merujuk pada tidak mengambil distribusi sebelumnya.
whuber
@whuber ML memperhatikan risiko. Sebenarnya itu adalah minimalisasi di bawah kehilangan logaritmik di bawah seragam yang tidak tepat sebelumnya.
Cagdas Ozgenc
4
@Cagdas Saya percaya itu biasanya bukan risiko bagi pembuat keputusan: itu hanya menunjukkan ML seolah-olah meminimalkan risiko jika kehilangan logaritmik adalah risiko yang penting bagi mereka. Menarik untuk "prior seragam yang tidak tepat" jelas tidak sering, omong-omong!
Whuber
1
@whuber Prosedur estimasi Bayesian juga menggunakan akumulasi log-loss. Hanya setelah itu risiko pembuat keputusan diterapkan. Jika kita berbicara tentang mengoptimalkan risiko pembuat keputusan secara langsung (bukan melalui batu loncatan log-loss), maka prosedur frequentist lebih terkenal dalam hal itu, yaitu OLS.
Cagdas Ozgenc

Jawaban:

16

Anda menerapkan definisi frekuensi dan MLE yang relatif sempit - jika kami sedikit lebih murah hati dan mendefinisikan

  • Frequentism: tujuan konsistensi, (asimptotik) optimalitas, tidak memihak, dan tingkat kesalahan terkontrol dalam pengambilan sampel berulang, independen dari parameter yang sebenarnya

  • MLE = estimasi titik + interval kepercayaan (CI)

maka tampaknya cukup jelas bahwa MLE memenuhi semua idealisme yang sering terjadi. Secara khusus, CI di MLE, sebagai nilai-p, mengendalikan tingkat kesalahan di bawah pengambilan sampel berulang, dan tidak memberikan daerah probabilitas 95% untuk nilai parameter yang benar, seperti yang dipikirkan banyak orang - karenanya mereka melewati dan melalui frequentist.

Tidak semua ide-ide ini sudah hadir dalam makalah Fisher 1922 "Pada dasar matematika dari statistik teoritis" , tetapi gagasan tentang optimalitas dan ketidakberpihakan adalah, dan Neyman kemudian menambahkan gagasan membangun CI dengan tingkat kesalahan tetap. Efron, 2013, "Argumen 250 tahun: Keyakinan, perilaku, dan sepatu boot" , merangkum dalam sejarahnya yang sangat mudah dibaca tentang perdebatan Bayesian / Frequentist:

Kereta musik frequentist benar-benar bergulir di awal 1900-an. Ronald Fisher mengembangkan teori kemungkinan maksimum estimasi optimal, menunjukkan perilaku terbaik untuk estimasi, dan Jerzy Neyman melakukan hal yang sama untuk interval kepercayaan dan tes. Prosedur Fisher dan Neyman hampir sempurna untuk kebutuhan ilmiah dan batas komputasi sains abad kedua puluh, membuat Bayesianisme menjadi bayangan.

Mengenai definisi Anda yang lebih sempit - Saya agak tidak setuju dengan premis Anda bahwa minimalisasi risiko frequentist (FR) adalah kriteria utama untuk memutuskan apakah suatu metode mengikuti filosofi frequentist. Saya akan mengatakan fakta bahwa meminimalkan FR adalah sifat yang diinginkan mengikuti filosofi frequentist, daripada mendahului itu. Oleh karena itu, aturan keputusan / penaksir tidak harus meminimalkan FR untuk menjadi sering, dan meminimalkan FR juga tidak selalu mengatakan bahwa suatu metode sering, tetapi seorang yang sering ragu akan lebih suka meminimalkan minimalisasi FR.

Jika kita melihat MLE secara spesifik: Fisher menunjukkan bahwa MLE optimal asimtotik (secara umum setara dengan meminimalkan FR), dan itu tentu saja merupakan salah satu alasan untuk mempromosikan MLE. Namun, dia sadar bahwa optimalitas tidak berlaku untuk ukuran sampel yang terbatas. Namun, ia senang dengan estimator ini karena sifat-sifat lain yang diinginkan seperti konsistensi, normalitas asimptotik, invariansi dalam transformasi parameter, dan jangan lupa: kemudahan menghitung. Invarian secara khusus sangat ditekankan dalam makalah 1922 - dari bacaan saya, saya akan mengatakan mempertahankan invarian di bawah transformasi parameter, dan kemampuan untuk menyingkirkan prior pada umumnya, adalah salah satu motivasi utamanya dalam memilih MLE. Jika Anda ingin memahami alasannya lebih baik, saya sangat merekomendasikan kertas 1922, itu

Florian Hartig
sumber
2
Dapatkah saya meringkas jawaban Anda sebagai estimasi titik kemungkinan maksimum paling sering digunakan bersama dengan CI atau sebagai bagian dari tes hipotesis (misalnya tes rasio kemungkinan), oleh karena itu, ini merupakan teknik yang sering dilakukan? Jika ini masalahnya, saya pikir ini adalah jawaban yang valid, namun bukan jawaban yang saya harapkan. Saya bertujuan untuk argumen formal mengapa estimasi kemungkinan maksimum dapat dianggap sebagai teknik estimasi titik frequentist. Jika ini memerlukan definisi formal lain dari inferensi frequentist, ini juga bagus.
Julian Karls
1
Saya umumnya menganggap MLE sebagai kerangka kerja yang mencakup perkiraan titik Fisher bersama dengan CI Neyman - ini adalah cara pengajarannya di kelas, dan karena argumen di atas, saya akan mempertahankannya sebagai sering ke tulang. Saya bertanya-tanya seberapa masuk akal untuk membahas apakah MLE sendiri adalah penduga yang sering, tanpa konteks bagaimana dan mengapa digunakan. Jika Anda ingin alasan Fisher, saya benar-benar merekomendasikan makalah 1922 - Saya akan mengatakan alasan dia menyatakan sering, meskipun kata ini tidak ada saat itu. Saya telah menyampaikan komentar saya dalam hal itu.
Florian Hartig
1

Pada dasarnya, karena dua alasan:

  • Kemungkinan maksimum adalah perkiraan bijak dari parameter model. Kami orang Bayes menyukai distribusi posterior.
  • Kemungkinan maksimum mengasumsikan tidak ada distribusi sebelumnya , Kami Bayesian memerlukan prior kami, bisa informatif atau tidak informatif, tetapi perlu ada
Uri Goren
sumber
6
+1 Saya hanya ingin menunjukkan bahwa Anda secara implisit tampak menyamakan "frequentist" dengan "non-Bayesian" dalam jawaban ini. Bahasa "Kami Bayesia" juga menunjukkan bahwa "Bayesian" mengacu pada semacam karakteristik pribadi atau keanggotaan suku - hampir seolah-olah Anda semacam Eskimo - daripada seperangkat teknik dan interpretasi.
Whuber
4
Di sisi lain, MLE dapat dengan mudah diturunkan sebagai teknik Bayesian. Ini hanyalah perkiraan MAP untuk setiap model statistik menggunakan seragam sebelumnya.
Julian Karls
3
MAPjuga merupakan estimasi yang bijak, dan disukai oleh "Bayesians Sejati"
Uri Goren