Di bawah kondisi apa Bayesian dan penduga titik sering bertepatan?

17

Dengan flat sebelumnya, estimator ML (frequentist - maximum likelihood) dan MAP (Bayesian - maximum a posteriori) bersamaan.

Namun, secara lebih umum, saya berbicara tentang penduga titik yang diturunkan sebagai pengoptimal beberapa fungsi kerugian. Yaitu

(Bayesian)  x (

x^(.)=argminE(L(Xx^(y))|y) (Bayesian) 
x^(.)=argminE(L(xx^(Y))|x)(Frequentist)

di mana adalah operator ekspektasi, adalah fungsi kehilangan (diminimalkan pada nol), \ hat x (y) adalah estimator, diberikan data y , dari parameter x , dan variabel acak dilambangkan dengan huruf besar .Ex ( y ) y xLx^(y)yx

Adakah yang tahu kondisi apa pun pada , pdf dan , yang dikenakan linearitas dan / atau tidak memihak, di mana estimator akan bertepatan?Lxy

Edit

Seperti disebutkan dalam komentar, persyaratan imparsialitas seperti ketidakberpihakan diperlukan untuk menjadikan masalah Frequentist bermakna. Prior datar juga bisa menjadi kesamaan.

Selain diskusi umum yang diberikan oleh beberapa jawaban, pertanyaannya adalah juga tentang memberikan contoh nyata . Saya pikir yang penting berasal dari regresi linier:

  • OLS, adalah BIRU ( teorema Gauss-Markov) ), yaitu meminimalkan MSE yang sering terjadi di antara penaksir linier yang tidak bias.x^=(DD)1Dy
  • jika adalah Gaussian dan yang sebelumnya datar, adalah rata-rata "posterior" meminimalkan kerugian rata-rata Bayesian untuk fungsi kehilangan cembung.(X,Y)x^=(DD)1Dy

Di sini, tampaknya dikenal sebagai data / desain matriks dalam istilah frequentist / Bayesian, masing-masing.D

Patrick
sumber
Saya berasumsi bahwa Anda ingin jawaban untuk menganggap flat sebelumnya? Kalau tidak tentu saja tidak ada cara bahwa perkiraan bisa masuk akal diharapkan sama dalam kasus-kasus umum yang menarik.
user56834
2
Ini bukan pertanyaan sederhana untuk dijawab dalam generalitas yang Anda ajukan, tetapi saat ini merupakan topik penelitian yang sangat panas, lihat misalnya karya Judith Rousseau di bidang ini: ceremade.dauphine.fr/ ~rousseau
Jeremias K
@ JeremiasK, mungkin Anda bisa menjelaskan sesuatu tentang itu dalam sebuah jawaban?
user56834
1
@ Programmer2134 saya lakukan jika saya merasa cukup nyaman dengan materi, tetapi saya tidak. Saya tahu bahwa apa yang mereka lakukan adalah menurunkan pasangan Bayesian dari CLT, dengan 'tingkat konsentrasi posterior' tertentu yang memberi tahu Anda seberapa cepat parameter posterior berkonsentrasi pada titik di ruang parameter Anda saat Anda meningkatkan ukuran sampel, dan kemudian pada dasarnya Anda mengakhiri sampai menemukan jaminan konsistensi tipe sering untuk estimator Bayesian Anda.
Jeremias K

Jawaban:

7

Pertanyaannya menarik tetapi agak tidak ada harapan kecuali gagasan estimator frequentist dibuat tepat. Hal ini jelas bukan satu set dalam pertanyaan x ( sejak jawaban minimisasi adalah x ( y ) = x untuk semua y 's sebagai keluar menunjuk padajawaban Programmer2134 ini. Masalah mendasarnya adalah bahwa tidak ada estimator tunggal yang sering muncul untuk masalah estimasi, tanpa memperkenalkan batasan tambahan atau kelas-kelas estimator. Tanpa itu, semua penaksir Bayes juga merupakan penaksir yang sering.

x^(.)=argminE(L(x,x^(Y))|x)
x^(y)=xy

Seperti yang ditunjukkan dalam komentar, ketidakberpihakan dapat menjadi kendala seperti itu, dalam hal ini penaksir Bayes dikecualikan. Tetapi gagasan frequentist ini berbenturan dengan gagasan frequentist lainnya seperti

  1. dapat diterima, karena fenomena James-Stein menunjukkan bahwa estimator yang tidak memihak mungkin tidak dapat diterima (tergantung pada fungsi kerugian dan pada dimensi masalah);
  2. invarian di bawah reparameterisation, karena ketidakberpihakan tidak terus di bawah transformasi.

Ditambah ketidakberpihakan hanya berlaku untuk kelas terbatas dari masalah estimasi. Maksud saya, kelas estimator yang tidak bias dari parameter tertentu atau transformasi h ( θ ) hampir selalu kosong.θh(θ)

Berbicara tentang penerimaan, gagasan lain yang sering, ada pengaturan di mana penaksir hanya diterima adalah penaksir Bayes dan sebaliknya. Jenis pengaturan ini berkaitan dengan teorema kelas lengkap yang didirikan oleh Abraham Wald pada 1950-an. (Hal yang sama berlaku untuk penaksir invarian terbaik yang merupakan Bayes di bawah ukuran Haar kanan yang tepat.)

Xi'an
sumber
1
Adakah cara kanonik lainnya untuk membatasi kelas estimator sehingga masalah minimalisasi didefinisikan dengan baik dan tidak merosot (selain membutuhkan ketidakberpihakan), yang lebih dekat dengan Bayesian?
user56834
3

Secara umum, estimator frequentist dan Bayesian tidak sesuai, kecuali jika Anda menggunakan flat yang sebelumnya sudah merosot. Alasan utamanya adalah ini: Penaksir frekuensi sering berusaha untuk bersikap tidak memihak. Misalnya, frequentist sering mencoba menemukan penaksir tidak bias varians minimum ( http://en.wikipedia.org/wiki/Minimum-variance_unprice_estimator ). Sementara itu, semua penduga Bayes yang tidak berdegenerasi bias (dalam pengertian bias yang sering terjadi). Lihat, misalnya, http://www.stat.washington.edu/~hoff/courses/581/LectureNotes/bayes.pdf , Theorem 5.

Untuk meringkas: Sebagian besar penaksir frequentist populer berusaha bersikap tidak memihak, sementara semua penaksir Bayes bias. Dengan demikian, Bayes dan penduga sering jarang bertepatan.

Stefan Taruhan
sumber
5
Saya bertanya-tanya tentang kebenaran pernyataan ini, mengingat bahwa "sebagian besar penaksir frequentist populer" adalah ML dan mereka cenderung bias (tergantung pada parameterisasi). Selain itu, seorang frequentist yang baik sangat prihatin tentang kehilangan dan penerimaan; bagian kunci dari teori ini mengakui bahwa prosedur yang dapat diterima berasal dari prosedur Bayes, dari mana - setidaknya dalam arti luas - inti dari teori frequentist bergantung pada estimator Bayes! Saya mungkin tertarik pada sudut pandang Anda jika Anda bisa lebih jelas tentang "sering," "sebagian besar," dan "jarang," dan mendukungnya dengan bukti.
whuber
@whuber Poin bagus - jawaban saya mungkin agak sederhana. Sering terjadi nyata cenderung menggunakan prosedur bias (misalnya L1 atau L2 regresi dihukum), atau bahkan mungkin menggunakan prosedur Bayesian secara formal. Namun, saya pikir estimator yang tidak memihak adalah titik awal untuk analisis yang paling sering dilakukan. Sebagai contoh, bab pertama dari Theory of Point Estimation oleh Lehmann & Casella (salah satu teks standar tentang estimasi frequentist) adalah tentang ketidakberpihakan.
Stefan Taruhan
5
Baiklah, OK (+1). Tetapi saya menemukan argumen terakhir Anda lucu: bagaimanapun, sebuah buku harus dimulai di suatu tempat dan biasanya titik awal dipilih karena kesederhanaan dan aksesibilitasnya, bukan karena kepentingan praktisnya. Dengan alasan yang sama Anda dapat mengklaim bahwa sebagian besar matematika modern terutama berkaitan dengan logika dan teori himpunan, karena mereka sering membentuk bab pertama dalam banyak buku teks matematika! Refleksi praktik statistik yang lebih baik mungkin merupakan setengah terakhir dari Lehmann & Casella - lihat apa yang dibahas di sana :-).
whuber
"kecuali jika Anda menggunakan flat yang sebelumnya telah merosot". Nah ini adalah kasus khusus yang menarik untuk dipikirkan, bukan?
user56834
Juga, pertanyaannya adalah tentang apakah mereka secara teoritis akan bertepatan dalam kondisi tertentu, bukan apakah penduga yang digunakan dalam praktiknya bertepatan.
user56834
3

Ini bukan jawaban yang lengkap, tapi sementara kedua 's tampilan yang sangat mirip, mereka secara fundamental berbeda dengan cara: Bayesian satu meminimalkan ekspresi sehubungan dengan nilai tunggal (yaitu, nilai x ( y ) , tergantung pada y ).argminx^(y)y

Tetapi yang Frequentist harus meminimalkan fungsi kerugian sehubungan dengan nilai tunggal untuk setiap nilai yang dapat diambil , tanpa mengetahui x . Hal ini karena minimum dari fungsi f ( x , x ) = E ( L ( x - x ( Y ) ) | x ) tergantung pada x , meskipun kita harus menguranginya tanpa mengetahui x . (catatan bahwa jika kita hanya akan meminimalkan f ( x , x )xxf(x,x^)=E(L(xx^(Y))|x)xxf(x,x^)wrt x , kita hanya akan mendapatkan nilai meminimalkan dari x = x .) Masalah Frequentist karena itu tidak terdefinisi. Saya tidak yakin apakah mungkin membuatnya didefinisikan dengan baik.x^x^=x

pengguna56834
sumber
1
Poin bagus. Saya pikir Anda benar tentang masalah yang sering terjadi. Cara untuk membuatnya dengan posisi yang baik adalah dengan membatasi kelas estimator. Dari Lehmann & Casella: "Sejauh ini, kami telah khawatir dengan menemukan estimator yang meminimalkan risiko R (θ, δ) pada setiap nilai θ. Ini hanya mungkin dengan membatasi kelas estimator untuk dipertimbangkan oleh persyaratan imparsialitas seperti sebagai ketidakberpihakan atau ekivalensi. "
Patrick
1

Mungkin tidak ada jawaban untuk pertanyaan ini.

Alternatifnya adalah meminta metode untuk menentukan dua perkiraan secara efisien untuk setiap masalah yang ada. Metode Bayesian cukup dekat dengan ideal ini. Namun, meskipun metode minimax dapat digunakan untuk menentukan estimasi titik frekuensi, secara umum, penerapan metode minimax tetap sulit, dan cenderung tidak digunakan dalam praktik.

Alternatif lain adalah mengulangi pertanyaan mengenai kondisi di mana Bayesian dan penduga sering memberikan hasil "konsisten" dan mencoba mengidentifikasi metode untuk menghitung secara efisien penduga tersebut. Di sini "konsisten" diambil untuk menyiratkan bahwa estimator Bayesian dan frequentist berasal dari teori umum dan bahwa kriteria optimalitas yang sama digunakan untuk kedua estimator. Ini sangat berbeda dengan mencoba menentang statistik Bayesian dan sering, dan mungkin membuat pertanyaan di atas berlebihan. Salah satu pendekatan yang mungkin adalah mengarahkan, baik untuk kasus frequentist dan kasus Bayesian, pada set keputusan yang meminimalkan kerugian untuk ukuran tertentu, yaitu, seperti yang diusulkan oleh

Schafer, Chad M, dan Philip B Stark. "Membangun wilayah kepercayaan dengan ukuran yang diharapkan optimal." Jurnal Asosiasi Statistik Amerika 104.487 (2009): 1080-1089.

Ternyata ini mungkin - baik untuk frequentist dan kasus Bayesian - dengan memasukkan pengamatan preferensi dan parameter dengan informasi timbal balik yang besar dan berurutan. Set keputusan tidak akan sama, karena pertanyaan yang diajukan berbeda:

  • Tidak tergantung pada apa parameter sebenarnya, batasi risiko membuat keputusan yang salah (pandangan frequentist)
  • Dengan beberapa pengamatan, batasi risiko memasukkan parameter yang salah ke dalam set keputusan (tampilan Bayesian)

Namun set akan tumpang tindih sebagian besar dan menjadi identik dalam beberapa situasi, jika digunakan datar. Idenya dibahas secara lebih rinci bersama dengan implementasi yang efisien di

Bartels, Christian (2015): Kepercayaan umum dan konsisten serta wilayah yang kredibel. figshare. https://doi.org/10.6084/m9.figshare.1528163

Untuk prior prior, set keputusan lebih menyimpang (seperti yang umum dikenal dan ditunjukkan dalam pertanyaan dan jawaban di atas). Namun dalam kerangka kerja yang konsisten, seseorang memperoleh tes frequentist, yang menjamin cakupan frequentist yang diinginkan, tetapi mempertimbangkan pengetahuan sebelumnya.

Bartels, Christian (2017): Menggunakan pengetahuan sebelumnya dalam tes frequentist. figshare. https://doi.org/10.6084/m9.figshare.4819597

Metode yang diusulkan masih kekurangan implementasi marginalisasi yang efisien.

pengguna36160
sumber
Bisakah Anda menguraikan pertanyaan Anda lebih spesifik ketika mereka akan "konsisten"?
user56834
@ Programmer2134. Terima kasih, mencoba mengklarifikasi jawabannya.
user36160