Mengapa Jeffrey dulu bermanfaat?

61

Saya mengerti bahwa Jeffreys prior adalah invarian di bawah parameterisasi ulang. Namun, yang tidak saya mengerti adalah mengapa properti ini diinginkan.

Mengapa Anda tidak ingin yang sebelumnya berubah di bawah perubahan variabel?

bayesian prior tskuzzy
sumber

3

Yang mungkin menarik: Mengapa prior Jeffreys dianggap tidak informatif? .

30

Biarkan saya melengkapi jawaban Zen. Saya tidak terlalu suka gagasan "mewakili ketidaktahuan". Yang penting bukanlah Jeffrey sebelumnya, tetapi Jeffrey posterior . Posterior ini bertujuan untuk mencerminkan sebaik mungkin informasi tentang parameter yang dibawa oleh data. Properti invarian secara alami diperlukan untuk dua poin berikut. Pertimbangkan misalnya model binomial dengan parameter proporsi tidak diketahui dan parameter peluang . $\theta$ $\psi=\frac{\theta}{1-\theta}$

Poster Jeffreys on mencerminkan sebaik mungkin informasi tentang dibawa oleh data. Ada korespondensi satu-ke-satu antara dan . Kemudian, mentransformasikan posterior Jeffreys pada menjadi posterior on (melalui rumus perubahan variabel biasa) harus menghasilkan distribusi yang mencerminkan informasi tentang sebaik mungkin . Dengan demikian distribusi ini harus menjadi posterior Jeffreys tentang . Ini adalah properti invarian. $\theta$ $\theta$ $\theta$ $\psi$ $\theta$ $\psi$ $\psi$ $\psi$
Poin penting ketika menarik kesimpulan dari analisis statistik adalah komunikasi ilmiah . Bayangkan Anda memberikan Jeffreys posterior pada kepada kolega ilmiah. Tapi dia lebih tertarik pada daripada . Maka ini bukan masalah dengan properti invarian: ia hanya harus menerapkan rumus perubahan variabel. $\theta$ $\psi$ $\theta$

Stéphane Laurent
sumber

Ah ini membereskan semuanya. Tetapi apakah ada alasan intuitif yang baik mengapa posterior untuk parameter odds harus sama dengan posterior untuk parameter proporsi? Bagi saya itu agak tidak wajar.

tskuzzy

Itu tidak sama ! Satu diinduksi oleh yang lain dengan rumus perubahan variabel. Ada korespondensi satu-ke-satu antara dua parameter. Kemudian distribusi posterior pada salah satu parameter ini harus menginduksi distribusi posterior pada yang lain.

Stéphane Laurent

2

(+1) Stéphane. OP tampaknya masih bingung ketika dia mengatakan "... harus sama ...". Dua posisi tidak "sama", yang terjadi adalah, misalnya, dalam contoh Stéphane, Anda memiliki ; jika Anda tidak memiliki konsistensi seperti ini dengan menggunakan default (dihitung) prior, maka prior Anda sedikit gila.

P {1 / 3 \leq θ \leq 2 / 3 ∣ X = x} = P {1 / 2 \leq ψ \leq 2 ∣ X = x}

$P\{1/3\leq\theta\leq 2/3\mid X=x\}=P\{1/2\leq\psi\leq 2\mid X=x\}$

Zen

1

Saya pikir apa yang hilang dari posting ini adalah ketika ada banyak informasi dalam data tentang parameter, yang digunakan sebelumnya tidak terlalu penting. Sebagai contoh, proporsi binomial, apakah kita menggunakan seragam, jeffrey atau haldane sebelumnya membuat perbedaan yang sangat kecil kecuali posterior sangat luas. Dalam hal ini sedikit argumen akademis yang sebelumnya "benar" karena tidak ada kesimpulan yang berarti yang dapat ditarik pula. Nilai sebenarnya dari prior non-informatif adalah dalam berbagai dimensi, tetapi masalah ini belum terpecahkan - Jeffreys prior buruk di sini.

probabilityislogic

3

Teori ini tidak lengkap dan tergantung pada pemesanan parameter, pilihan wilayah kompak, dan fungsi kemungkinan. Jadi itu tidak mematuhi prinsip kemungkinan misalnya. Juga, sulit untuk diterapkan pada data yang tidak independen. Lebih lanjut, teori Bernardo hanya lengkap untuk masalah parameter 1-d. Ini mungkin merupakan metode terbaik yang tersedia saat ini. Pesaing yang baik adalah pendekatan kelompok transformasi Jaynes.

probabilityislogic

41

Misalkan Anda dan seorang teman menganalisis set data yang sama menggunakan model normal. Anda mengadopsi parameterisasi biasa dari model normal menggunakan mean dan varians sebagai parameter, tetapi teman Anda lebih memilih untuk parameterisasi model normal dengan koefisien variasi dan presisi sebagai parameter (yang sempurna "legal"). Jika Anda berdua menggunakan prior Jeffreys, distribusi posterior Anda akan menjadi distribusi posterior teman Anda dengan benar diubah dari parameterisasi ke milik Anda. Dalam pengertian ini bahwa prior Jeffreys adalah "invarian"

(Ngomong-ngomong, "invarian" adalah kata yang mengerikan; yang sebenarnya kita maksudkan adalah "kovarian" dalam arti yang sama dengan tensor kalkulus / geometri diferensial, tetapi, tentu saja, istilah ini sudah memiliki makna probabilistik yang mapan, jadi kita tidak bisa menggunakannya.)

Mengapa properti konsistensi ini diinginkan? Karena, jika sebelumnya Jeffreys 'memiliki peluang untuk mewakili ketidaktahuan tentang nilai parameter dalam arti absolut (sebenarnya, itu tidak, tetapi karena alasan lain yang tidak terkait dengan "invarian"), dan tidak mengabaikan relatif terhadap parameterisasi tertentu dari model, itu harus menjadi kasus bahwa, tidak peduli parameterisasi mana yang kita pilih secara sewenang-wenang untuk memulai, posisi kita harus "cocok" setelah transformasi.

Jeffreys sendiri melanggar properti "invarian" ini secara rutin ketika membangun prior.

Makalah ini memiliki beberapa diskusi menarik tentang hal ini dan mata pelajaran terkait.

Zen
sumber

1

+1: Jawaban yang bagus. Tapi, mengapa Jeffreys sebelumnya tidak mewakili ketidaktahuan tentang nilai parameter?

Neil G

4

Karena itu bahkan bukan distribusi. Adalah paradoks untuk mengklaim bahwa distribusi mencerminkan ketidaktahuan. Distribusi selalu mencerminkan informasi.

Stéphane Laurent

2

Referensi lain: projecteuclid.org/…

Stéphane Laurent

@ StéphaneLaurent: Seseorang harus memiliki beberapa keyakinan bahkan dalam keadaan total kebodohan. Apa pun posterior Anda minus apa pun kemungkinan yang disebabkan oleh data Anda adalah keyakinan bahwa Anda berasumsi dalam keadaan ketidaktahuan itu. Prinsip intuitif yang harus dihormati ketika memutuskan keyakinan itu adalah bahwa prinsip itu harus tidak berubah di bawah perubahan label (termasuk reparametrization). Saya tidak yakin, tapi saya pikir prinsip itu saja (dalam semua interpretasi yang mungkin - entropi maksimum, reparametrization invarian, dll.) Selalu memutuskan kepercayaan.

Neil G

Oleh karena itu, ketika seseorang mengatakan "distribusi mencerminkan ketidaktahuan", berarti distribusi itu sesuai dengan prinsip ini.

Neil G

12

Untuk menambahkan beberapa kutipan pada jawaban hebat Zen: Menurut Jaynes, sebelumnya Jeffreys adalah contoh dari prinsip kelompok transformasi, yang dihasilkan dari prinsip ketidakpedulian:

Inti dari prinsip ini adalah: (1) kami menyadari bahwa penetapan probabilitas adalah cara untuk menggambarkan keadaan tertentu yang saya ketahui. (2) Jika bukti yang tersedia tidak memberi kami alasan untuk mempertimbangkan proposisi lebih atau kurang mungkin daripada , maka satu-satunya cara jujur yang kami dapat gambarkan bahwa tingkat pengetahuan adalah memberi mereka probabilitas yang sama: . Prosedur lain mana pun akan menjadi tidak konsisten dalam arti bahwa, dengan hanya saling bertukar label kita kemudian dapat menghasilkan masalah baru di mana keadaan pengetahuan kita sama, tetapi di mana kita menetapkan probabilitas yang berbeda ... $A_1$ $A_2$ $p_1=p_2$ $(1, 2)$

Sekarang, untuk menjawab pertanyaan Anda: "Mengapa Anda tidak ingin yang sebelumnya berubah di bawah perubahan variabel?"

Menurut Jaynes, parametrization adalah jenis lain dari label yang sewenang-wenang, dan seseorang seharusnya tidak dapat “hanya dengan pertukaran label yang menghasilkan masalah baru di mana kondisi pengetahuan kita sama, tetapi di mana kita menetapkan probabilitas yang berbeda. ”

Neil G
sumber

2

Bagi saya Jaynes agak mistis bagi saya.

Stéphane Laurent

@ StéphaneLaurent: Mungkin saya terlalu mudah bertobat! Tapi, saya menemukan ini sangat meyakinkan: ET Jaynes, "Di mana kita berdiri pada Entropy Maksimum ?," dalam The Maximum Entropy Formalism, R. Levine dan M. Tribus, Eds. Cambridge, MA, AS: The MIT Press, 1979, hlm. 15–118.

Neil G

2

Xian menerima surat memuji Jaynes: ceremade.dauphine.fr/ ~ xian / critic.html Sayang sekali jika Anda tidak membaca bahasa Prancis, surat ini menakutkan sekaligus lucu. Penulis sepertinya sudah gila dengan terlalu memikirkan statistik Bayesian;)

Stéphane Laurent

1

@ StéphaneLaurent: Membaca sekarang. Ini benar sekali: "si vous affirmez en page 508" tidak dapat diulangnya sebagian besar eksperimen "à quoi bon ensuite" mencari prosedur fequentist yang optimal "di halaman 512? Apakah Anda ingin tahu tentang apa yang harus dilakukan? Bagaimana cara menggunakan par les procédures fréquentistes, comment le "choix Bayésien", qui se veut étre le paradigme pour tout problème inférentiel, n'est-ce pas, peut-il se baser sur une réconciliation avec le fréquentisme (p. 517-518)? Pourquoi ne pas dire une fois tuangkan toute qu'une probabilité n'est jamais une fréquence! "

Neil G

1

Juga: "Le Principe du Maximum d'Entropie est lui absolument fondament étant donné qu'il est nécessaire et suffisant pour régler ces cas d'école et que par conséquent il procure dan ces cas la signification véritable des probabilités a priori. qu'il permet ensuite d'unifier Théorie de l'Information, Mécanique Statistique, Thermodynamique… "menggambarkan posisi saya juga. Namun, tidak seperti penulis, saya tidak tertarik untuk menghabiskan waktu berjam-jam meyakinkan orang lain untuk menerima apa yang menurut saya alami.

Neil G

4

Sementara sering menarik, jika hanya untuk menetapkan referensi sebelum terhadap yang untuk mengukur prior lainnya, Jeffreys prior mungkin benar-benar tidak berguna seperti misalnya ketika mereka menyebabkan posteriors yang tidak tepat: ini adalah contoh kasus dengan sederhana dua komponen Gaussian campuran dengan semua parameter tidak diketahui. Dalam hal ini, posterior dari Jeffrey sebelumnya tidak ada, tidak peduli berapa banyak pengamatan yang tersedia. (Buktinya tersedia dalam makalah baru - baru ini yang saya tulis dengan Clara Grazian.)

p N (μ_{0}, σ_{0}^{2}) + (1 - p) N (μ_{1}, σ_{1}^{2})

$p\mathcal{N}(\mu_0,\sigma_0^2)+(1-p)\mathcal{N}(\mu_1,\sigma_1^2)$

Xi'an
sumber

-2

Jeffreys sebelumnya tidak berguna . Hal ini karena:

Itu hanya menentukan bentuk distribusi; itu tidak memberi tahu Anda apa parameternya seharusnya.
Anda tidak pernah benar-benar bodoh - selalu ada sesuatu tentang parameter yang Anda tahu (mis. Sering kali itu tidak dapat menjadi tak terbatas). Gunakan itu untuk kesimpulan Anda dengan mendefinisikan distribusi sebelumnya. Jangan membohongi diri sendiri dengan mengatakan bahwa Anda tidak tahu apa-apa.
"Invarian di bawah transformasi" bukanlah properti yang diinginkan. Kemungkinan Anda berubah di bawah transformasi (mis. Oleh Jacobian). Ini tidak menciptakan "masalah baru," langkah Jaynes. Mengapa sebelumnya tidak diperlakukan sama?

Hanya saja, jangan menggunakannya.

nec
sumber

1

Eh? Kemungkinan bukan kepadatan dan tidak akan berubah di bawah reparametrization

innisfree

Mengapa Jeffrey dulu bermanfaat?

Jawaban: