Jika Anda menggunakan estimasi titik yang memaksimalkan

12

Jika seseorang berkata

"Metode itu menggunakan ~~MLE~~ estimasi titik untuk parameter yang memaksimalkan , oleh karena itu sering, dan lebih lanjut itu bukan Bayesian." $\mathrm{P}(x|\theta)$

apakah kamu setuju?

Pembaruan di latar belakang : Saya baru-baru ini membaca sebuah makalah yang mengaku sering. Saya tidak setuju dengan klaim mereka, paling baik saya merasa itu ambigu. Makalah ini tidak secara eksplisit menyebutkan MLE (atau MAP , dalam hal ini). Mereka hanya mengambil estimasi titik, dan mereka hanya melanjutkan seolah-olah estimasi titik ini benar. Mereka tidak melakukannyalakukan analisis distribusi sampling dari penaksir ini, atau semacamnya; modelnya cukup kompleks dan oleh karena itu analisis seperti itu mungkin tidak mungkin. Mereka juga tidak menggunakan kata 'posterior'. Mereka hanya mengambil estimasi titik ini pada nilai nominal dan melanjutkan ke topik utama mereka yang menarik - menyimpulkan data yang hilang. Saya tidak berpikir ada sesuatu dalam pendekatan mereka yang menunjukkan apa filosofi mereka. Mereka mungkin bermaksud untuk sering (karena mereka merasa berkewajiban untuk memakai filosofi mereka di lengan baju mereka), tetapi pendekatan mereka yang sebenarnya cukup sederhana / nyaman / malas / ambigu. Saya sekarang cenderung mengatakan bahwa penelitian itu tidak benar-benar memiliki filosofi di baliknya; alih-alih saya pikir sikap mereka lebih pragmatis atau nyaman:

"Saya telah mengamati data, , dan saya ingin memperkirakan beberapa data yang hilang, . Ada parameter yang mengontrol hubungan antara dan . Saya tidak terlalu peduli tentang kecuali sebagai sarana untuk mencapai tujuan. Jika saya memiliki perkiraan untuk itu akan membuat lebih mudah untuk memprediksi dari saya akan memilih estimasi titik. karena itu lebih mudah, khususnya saya akan memilih yang memaksimalkan ." $x$ $z$ $\theta$ $z$ $x$ $\theta$ $\theta$ $z$ $x$ $\theta$ $\hat{\theta}$ $\mathrm{P}(x|\theta)$

Ide estimator yang tidak bias jelas merupakan konsep Frequentist. Ini karena itu tidak mengkondisikan pada data, dan itu menggambarkan properti bagus (tidak memihak) yang akan berlaku untuk semua nilai parameter.

Dalam metode Bayesian, peran data dan parameter dibalik. Secara khusus, kami sekarang mengkondisikan pada data yang diamati dan melanjutkan untuk membuat kesimpulan tentang nilai parameter. Ini membutuhkan prior.

Sejauh ini bagus, tetapi di manakah MLE (Maximum Likelihood Estimate) cocok dengan semua ini? Saya mendapat kesan bahwa banyak orang merasa itu adalah Frequentist (atau lebih tepatnya, itu bukan Bayesian). Tetapi saya merasa bahwa ini adalah Bayesian karena melibatkan pengambilan data yang diamati dan kemudian menemukan parameter yang memaksimalkan . MLE secara implisit menggunakan prior yang seragam dan mengkondisikan data dan memaksimalkan $P(data | parameter)$ . Apakah adil untuk mengatakan bahwa MLE terlihat seperti Frequentist dan Bayesian? Atau apakah setiap alat sederhana harus jatuh tepat ke salah satu dari dua kategori itu? $P(parameter | data)$

MLE konsisten tetapi saya merasa bahwa konsistensi dapat disajikan sebagai ide Bayesian. Diberikan sampel besar yang sewenang-wenang, taksiran bertemu pada jawaban yang benar. Pernyataan "estimasi akan sama dengan nilai sebenarnya" berlaku untuk semua nilai parameter. Yang menarik adalah bahwa pernyataan ini juga berlaku jika Anda mengkondisikan pada data yang diamati, menjadikannya Bayesian. Samping yang menarik ini berlaku untuk MLE, tetapi tidak untuk estimator yang tidak bias.

Inilah mengapa saya merasa bahwa MLE adalah 'yang paling Bayesian' dari metode yang dapat digambarkan sebagai Frequentist.

Bagaimanapun, sebagian besar properti Frequentist (seperti ketidakberpihakan) berlaku dalam semua kasus, termasuk ukuran sampel hingga. Fakta bahwa konsistensi hanya berlaku dalam skenario mustahil (sampel tak terbatas dalam satu percobaan) menunjukkan bahwa konsistensi bukan properti yang bermanfaat.

Diberikan sampel realistis (yaitu terbatas), adakah properti Frequentist yang berlaku untuk MLE? Jika tidak, MLE tidak benar-benar Frequentist.

bayesian maximum-likelihood likelihood frequentist philosophical Aaron McDaid
sumber

6

MLE tidak dapat dianggap sebagai Bayesian mulai dari interpretasi parameter dalam kedua paradigma. Dari perspektif Bayesian, parameter adalah variabel acak sedangkan dalam pengaturan klasik adalah nilai yang harus diperkirakan. MLE bertepatan dengan MAP (dan mungkin penduga Bayesian titik lainnya) dalam banyak kasus tetapi interpretasinya sama sekali berbeda.

3

@Prastrastator, Anda harus memposting komentar Anda sebagai jawaban. Saya tidak berharap untuk memperbaiki atau menerimanya, tapi saya hanya merasa bahwa komentar Anda adalah jawaban. Kemudian, Anda dan saya mungkin menghapus komentar kami di sini.

Aaron McDaid

1

Saya tidak mengerti pertanyaan ini. (Saya mungkin sendirian dalam hal ini.) Tepatnya apa yang Anda maksud dengan "sering"? "Bukan Bayesian" tidak akan berlaku, karena itu terdiri dari sejumlah besar filosofi dan metode. Apa yang menjadikan sesuatu "properti kerap kali"? Apakah ada hubungan sama sekali antara "sering Anda" dan, katakanlah, Abraham Wald atau Jack Kiefer yang membenarkan prosedur statistik dengan prinsip-prinsip teori keputusan? (Kiefer, khususnya, memiliki pendapat yang agak kritis tentang MLE atas dasar ini.)

whuber

3

@whuber: Anda tidak sendirian. Satu suara untuk ditutup adalah milik saya dan dibuat satu atau dua hari yang lalu. Pertanyaan ini kurang jelas dan fokus dan tidak berbatas konstruktif karena framingnya yang diskursif dan agak polemik, dalam pandangan saya.

kardinal

1

Moderator enggan untuk menutup utas ini karena telah mengumpulkan banyak balasan (termasuk yang telah diterima!) Dan komentar, yang menunjukkan komunitas mungkin tidak setuju dengan penilaian baru Anda atas utas ini, Aaron.

whuber

7

Atau apakah setiap alat sederhana harus jatuh tepat ke salah satu dari dua kategori itu?

Tidak. Sederhana (dan bukan alat yang sangat sederhana) dapat dipelajari dari berbagai sudut pandang. Fungsi kemungkinan dengan sendirinya adalah landasan dalam statistik Bayesian dan sering, dan dapat dipelajari dari kedua sudut pandang! Jika mau, Anda dapat mempelajari MLE sebagai solusi perkiraan Bayes, atau Anda dapat mempelajari propertinya dengan teori asimptotik, dengan cara yang sering.

kjetil b halvorsen
sumber

4

Itu salah Harun. Para frekuensi sering menggunakan estimasi kemungkinan maksimum dan percaya pada prinsip kemungkinan. Kjetil benar bahwa fungsi kemungkinan adalah elemen kunci dari pendekatan Bayesian dan frequentist untuk inferensi. Tetapi mereka menggunakannya secara berbeda.

Michael R. Chernick

3

Saya telah memberikan jawaban yang sangat bagus untuk pertanyaan Harun tetapi untuk beberapa alasan aneh orang merendahkannya. Mereka tidak boleh mengerti apa yang sedang terjadi. Tidak mungkin estimasi kemungkinan maksimum dapat diklasifikasikan sebagai Bayesian karena memaksimalkan kemungkinan dan tidak mempertimbangkan distribusi sebelumnya sama sekali!

Michael R. Chernick

4

(Saya baru saja menghapus komentar saya sendiri, saya mencoba memastikan saya hanya menambahkan komentar yang bermanfaat.) Michael, tidak ada gunanya mengeluh tentang downvotes dan Anda tidak akan mendapatkan simpati dengan hanya mengatakan "Mereka tidak boleh mengerti apa yang sedang terjadi."

Aaron McDaid

7

@Michael, apakah Anda pernah menyaksikan bolak-balik yang produktif yang dimulai dengan "mengapa saya diturunkan"? Saya yakin belum. Itu sebabnya saya (dan beberapa anggota lain di sini) bahkan tidak memulai percakapan, terlepas dari apakah Anda pikir itu dibenarkan atau tidak. Tidak ada gunanya dan umumnya mengarah ke diskusi di luar topik.

Makro

3

@Michael, saya tentu setuju bahwa adalah sopan santun untuk memberikan penjelasan, dan saya mencoba melakukannya jika orang lain belum menyuarakan keprihatinan saya dalam komentar. Tetapi jika Anda menerima downvote diam, saya ragu bahwa memulai pembicaraan akan memulai percakapan yang produktif.

Makro

10

Saat Anda melakukan Estimasi Kemungkinan Maksimum, Anda mempertimbangkan nilai estimasi dan properti sampling estimator untuk menetapkan ketidakpastian estimasi Anda yang dinyatakan sebagai interval kepercayaan. Saya pikir ini penting mengenai pertanyaan Anda karena interval kepercayaan pada umumnya akan tergantung pada titik sampel yang tidak diamati, yang tampaknya oleh sebagian orang sebagai properti yang pada dasarnya tidak memiliki hak.

PS Ini terkait dengan fakta yang lebih umum bahwa Estimasi Kemungkinan Maksimum (Poin + Interval) gagal memenuhi Prinsip Kemungkinan , sementara analisis Bayesian (" Gaya Savage ") penuh tidak.

Zen
sumber

+1. Gagasan bahwa normal terpotong akan menghasilkan posterior berbeda menarik dan mengejutkan! Saya berkomentar bahwa saya skeptis, tetapi saya menghapus komentar itu. Saya perlu memikirkan ini sedikit lagi. Biasanya, saya menemukan Prinsip Kemungkinan menjadi 'jelas benar', jadi saya harus memikirkannya lebih jauh.

Aaron McDaid

Poin bagus Zen. Saya kira sebagai estimasi titik, estimasi kemungkinan maksimum adalah kepatuhan terhadap prinsip kemungkinan, tetapi gagasan sering tentang interval kepercayaan tidak.

Michael R. Chernick

@ Zen, saya tidak yakin bahwa posisinya sama. Apakah Anda punya referensi untuk itu? Saya telah membuat Google Doc dengan argumen saya bahwa posterior akan berubah ketika kami mengganti yang normal dengan yang terpotong normal. Terima kasih sebelumnya.

Aaron McDaid

6

Fungsi kemungkinan adalah fungsi yang melibatkan data dan parameter yang tidak diketahui. Ini dapat dilihat sebagai kepadatan probabilitas untuk data yang diamati mengingat nilai parameter. Parameternya sudah diperbaiki. Jadi dengan sendirinya kemungkinan adalah gagasan yang sering terjadi. Memaksimalkan kemungkinan hanya untuk menemukan nilai spesifik dari parameter yang membuat kemungkinan mengambil nilai maksimumnya. Jadi estimasi kemungkinan maksimum adalah metode frequentist semata-mata berdasarkan data dan bentuk model yang diasumsikan untuk menghasilkannya. Estimasi Bayesian hanya masuk ketika distribusi sebelumnya ditempatkan pada parameter dan formula Bayes digunakan untuk memperoleh distribusi aposteriori untuk parameter dengan menggabungkan sebelumnya dengan kemungkinan.

Michael R. Chernick
sumber

Semua komentar yang diposting di sini telah dipindahkan ke ruang obrolan khusus . Jika seseorang mengalami kesulitan untuk bergabung dengan ruangan ini, dan hanya dalam kasus ini, harap beri tanda untuk perhatian moderator. Tidak ada komentar lebih lanjut akan diterima.

chl

6

Dengan asumsi bahwa dengan "Bayesian" Anda merujuk ke Bayes subyektif (alias Bayes epistemik, De-Finetti Bayes) dan bukan makna Bayes empiris saat ini - itu jauh dari sepele. Di satu sisi, Anda menyimpulkan berdasarkan data Anda saja. Tidak ada keyakinan subjektif di tangan. Ini sepertinya cukup sering terjadi ... Tetapi kritiknya, yang diungkapkan bahkan di Fisher sendiri (Bayesian non (subyektif) yang ketat), adalah bahwa dalam pemilihan distribusi sampel dari subjektivitas data telah merangkak masuk. Parameter hanya ditentukan mengingat kita keyakinan proses pembuatan data.

Kesimpulannya - saya percaya MLE biasanya dianggap sebagai konsep frequentist, meskipun itu hanya masalah bagaimana Anda mendefinisikan "frequentist" dan "Bayesian".

JohnRos
sumber

+1: Ini yang saya coba sampaikan dalam komentar saya di atas.

Neil G

1

(menjawab pertanyaan sendiri)

Sebuah estimator adalah fungsi yang mengambil beberapa data dan menghasilkan sejumlah (atau kisaran angka). Estimator, dengan sendirinya, tidak benar-benar 'Bayesian' atau 'sering' - Anda dapat menganggapnya sebagai kotak hitam di mana angka masuk dan angka keluar. Anda dapat menyajikan estimator yang sama ke frequentist dan ke Bayesian dan mereka akan memiliki hal-hal berbeda untuk dikatakan tentang estimator.

(Saya tidak senang dengan perbedaan sederhana antara frequentist dan Bayesian - ada masalah lain yang perlu dipertimbangkan. Tetapi untuk kesederhanaan, mari kita berpura-pura bahwa itu hanya dua kubu filosofis yang terdefinisi dengan baik.)

Anda tidak dapat memberi tahu apakah seorang peneliti sering berkunjung ke Bayesian hanya dengan penaksir mana yang mereka pilih. Yang penting adalah mendengarkan analisis apa yang mereka lakukan pada estimator dan alasan apa yang mereka berikan untuk memilih estimator itu.

$\theta$ $\mathrm{P}(\mathbf{x}|\theta)$

Ketika perangkat lunak yang sama disajikan ke Bayesian, Bayesian mungkin senang dengan banyak analisis yang sering dilakukan. Ya, semua hal lain dianggap sama, bias tidak baik dan konsistensi baik. Namun Bayesian akan lebih tertarik pada hal-hal lain. Bayesian akan ingin melihat apakah estimator mengambil bentuk beberapa fungsi distribusi posterior; dan jika demikian, apa yang digunakan sebelumnya? Jika estimator didasarkan pada posterior, Bayesian akan bertanya-tanya apakah prior adalah yang baik. Jika mereka senang dengan yang sebelumnya, dan jika estimator melaporkan mode posterior (berlawanan dengan, katakanlah, rata-rata posterior) maka mereka senang menerapkan interpretasi ini ke estimasi: "Estimasi ini adalah titik memperkirakan yang memiliki peluang terbaik untuk menjadi benar. "

Saya sering mendengar dikatakan bahwa frequentist dan Bayesian "menafsirkan" berbagai hal secara berbeda, bahkan ketika jumlah yang terlibat sama. Ini bisa sedikit membingungkan, dan saya pikir itu tidak benar. Interpretasi mereka tidak saling bertentangan; mereka hanya membuat pernyataan tentang berbagai aspek sistem. Mari kita mengesampingkan estimasi poin untuk saat ini dan mempertimbangkan interval sebagai gantinya. Secara khusus, ada interval kepercayaan yang sering dan interval kredibel Bayesian . Mereka biasanya akan memberikan jawaban yang berbeda. Tetapi dalam model tertentu, dengan prior tertentu, kedua jenis interval akan memberikan jawaban numerik yang sama.

Ketika intervalnya sama, bagaimana kita bisa menafsirkannya secara berbeda? Seorang frequentist akan mengatakan tentang penaksir interval:

Sebelum saya melihat data atau interval yang sesuai, saya dapat mengatakan setidaknya ada kemungkinan 95% bahwa parameter sebenarnya akan terkandung dalam interval.

sedangkan Bayesian akan mengatakan penduga interval:

Setelah saya melihat data atau interval yang sesuai, saya bisa mengatakan setidaknya ada kemungkinan 95% bahwa parameter sebenarnya terkandung dalam interval.

Kedua pernyataan ini identik, terlepas dari kata 'Sebelum' dan 'Setelah'. Bayesian akan memahami dan setuju dengan pernyataan sebelumnya dan juga akan mengakui bahwa kebenarannya independen dari yang sebelumnya, sehingga membuatnya 'lebih kuat'. Tetapi berbicara sebagai seorang Bayesian sendiri, saya akan khawatir bahwa pernyataan sebelumnya mungkin tidak terlalu berguna . Frequentist tidak akan menyukai pernyataan yang terakhir, tetapi saya tidak memahaminya dengan cukup baik untuk memberikan deskripsi yang adil tentang keberatan frequentist.

Setelah melihat data, apakah kerap kali masih optimis bahwa nilai sebenarnya terkandung dalam interval? Mungkin tidak. Ini agak berlawanan dengan intuisi tetapi penting untuk benar-benar memahami interval kepercayaan dan konsep lain berdasarkan distribusi sampel. Anda mungkin menganggap bahwa frequentist masih akan berkata "Mengingat data, saya masih berpikir ada kemungkinan 95% bahwa nilai sebenarnya dalam interval ini". Seorang frequentist tidak hanya akan mempertanyakan apakah pernyataan itu benar, mereka juga akan mempertanyakan apakah bermakna untuk mengaitkan probabilitas dengan cara ini. Jika Anda memiliki pertanyaan lebih lanjut tentang ini, jangan tanya saya, masalah ini terlalu banyak untuk saya!

Bayesian senang membuat pernyataan itu: "Pengkondisian pada data yang baru saja saya lihat, probabilitasnya adalah 95% bahwa nilai sebenarnya berada dalam kisaran ini."

Saya harus mengakui bahwa saya agak bingung pada satu poin terakhir. Saya mengerti, dan setuju dengan, pernyataan yang dibuat oleh frequentist sebelum data terlihat. Saya mengerti, dan setuju dengan, dengan pernyataan yang dibuat oleh Bayesian setelah data terlihat. Namun, saya tidak begitu yakin apa yang akan dikatakan oleh frequentist setelah data terlihat; apakah kepercayaan mereka tentang dunia telah berubah? Saya tidak dalam posisi untuk memahami filosofi frequentist di sini.

Aaron McDaid
sumber

1

Walaupun saya menemukan banyak dari hal ini jelas dan menyediakan pemikiran, tampaknya sepenuhnya mengabaikan sesuatu yang fundamental, yang merupakan interpretasi yang berbeda dari probabilitas sama sekali. Juga, dua paragraf terakhir tidak berlaku untuk analisis atau interpretasi apa pun yang saya lihat. Memang, saya tidak mengenali ahli statistik yang berlatih di "frequentist" Anda (yang terdengar agak seperti filsuf kuno). Siapa - setidaknya setelah Aristoteles - yang pernah mengatakan bahwa analisis data mereka selesai sebelum data diperoleh? Apakah ini orang bodoh yang mencoba memajukan pendekatan Bayesian?

whuber

1

@whuber, jika itu adalah manusia jerami, itu tidak disengaja. Selalu sulit untuk melakukan upaya apa pun untuk melaporkan pendapat orang lain tanpa secara tidak sengaja memasukkan penilaian terhadapnya. Dan saya tidak mengklaim memiliki pemahaman luas tentang banyak posisi bernuansa. Saya akan mencoba memikirkan kembali paragraf terakhir saya. Juga, Anda mengatakan saya tidak menggunakan "interpretasi yang berbeda tentang probabilitas sama sekali". Saya lebih suka mengatakan apa-apa daripada mengatakan sesuatu yang salah. Tidak mungkin mengatakan semuanya. Saya dapat mencoba untuk memberikan Anda kebenaran dan tidak ada yang lain selain kebenaran, tetapi saya tidak bisa memberikan Anda seluruh kebenaran :-)

Aaron McDaid

(+1) Anda benar, ada perdebatan panjang di sini dan tidak ada yang bisa membahas setiap poin dalam satu posting. Saya membatalkan jawaban ini karena penjelasannya yang cermat dan bijaksana (tetapi bukan karena saya setuju dengan semuanya!).

whuber

Saya telah mengedit beberapa paragraf terakhir untuk mencoba menjadi lebih adil; dari "Setelah melihat data ..." dan seterusnya. Saya bukan ahli, jadi saya mencoba untuk secara jujur tidak jelas di mana saya keluar dari kedalaman saya. Terima kasih untuk umpan baliknya.

Aaron McDaid

1

$P(x|\theta)$

Ben - Pasang kembali Monica
sumber

Jika Anda menggunakan estimasi titik yang memaksimalkan

Jawaban: