Apa hubungan di balik Jeffreys Priors dan transformasi penstabilan varian?

17

Saya membaca tentang Jeffreys sebelum di wikipedia: Jeffreys Prior dan melihat bahwa setelah setiap contoh, ini menggambarkan bagaimana transformasi penstabilan varian mengubah Jeffrey sebelum menjadi seragam sebelumnya.

Sebagai contoh, untuk kasus Bernoulli, menyatakan bahwa untuk koin yang kepala dengan probabilitas γ[0,1] , Bernoulli Model uji coba hasil bahwa Jeffreys sebelumnya untuk parameter γ adalah:

p(γ)1γ(1γ)

Kemudian menyatakan bahwa ini adalah distribusi beta dengan α=β=12 . Ini juga menyatakan bahwa jikaγ=sin2(θ), maka Jeffrey sebelum untukθseragam dalam interval[0,π2].

Saya mengenali transformasi sebagai transformasi penstabilan varian. Yang membingungkan saya adalah:

  1. Mengapa transformasi penstabilan varians menghasilkan seragam sebelumnya?

  2. Mengapa kita bahkan menginginkan seragam sebelumnya? (Karena tampaknya lebih rentan menjadi tidak pantas)

Secara umum, saya tidak begitu yakin mengapa transformasi kuadrat-sinus diberikan dan peran apa yang dimainkan. Adakah yang punya ide?

pengguna1398057
sumber
2
Saya akan menyebut diri saya sebagai penipu otodidak dengan menanyakan hal ini, tetapi: transformasi penstabil varian mana yang Anda maksud? ? 1sin2(θ)(1sin2(θ))
shadowtalker
2
Sinus kuadrat secara konvensional adalah cara yang salah untuk memikirkan transformasi. adalah akar kuadrat arcsine atau transformasi sudut. θ=arcsinγ
Nick Cox

Jawaban:

3

The Jeffreys prior adalah invarian di bawah reparametrization. Karena alasan itu, banyak orang Bayesian menganggapnya sebagai “prior non-informatif”. (Hartigan menunjukkan bahwa ada seluruh ruang dari prior seperti untuk α + β = 1 di mana J adalah prior Jeffreys 'dan H adalah Hartigan yang sebelumnya merupakan invarian lokal asimptotik. - Invariant Prior Distributions ) JαHβα+β=1JH

Ini adalah kepalsuan yang sering diulang bahwa seragam sebelumnya tidak informatif, tetapi setelah transformasi sewenang-wenang dari parameter Anda, dan seragam sebelum pada parameter baru berarti sesuatu yang sama sekali berbeda. Jika perubahan parametriisasi yang berubah-ubah memengaruhi prioritas Anda, maka prioritas Anda jelas informatif.

  1. Menggunakan Jeffreys, menurut definisi , setara dengan menggunakan flat sebelum setelah menerapkan transformasi penstabil varian.

  2. Dari sudut pandang matematika, menggunakan Jeffreys prior, dan menggunakan flat sebelum menerapkan transformasi variance-stable adalah setara. Dari sudut pandang manusia, yang terakhir mungkin lebih baik karena ruang parameter menjadi "homogen" dalam arti bahwa perbedaan semua sama di setiap arah di mana pun Anda berada di ruang parameter.

Pertimbangkan contoh Bernoulli Anda. Bukankah agak aneh bahwa skor 99% pada tes adalah jarak yang sama menjadi 90% karena 59% adalah 50%? Setelah transformasi penstabilan varians Anda, pasangan yang pertama lebih terpisah, sebagaimana seharusnya. Ini sesuai dengan intuisi kita tentang jarak aktual di luar angkasa. (Secara matematis, transformasi penstabilan varian membuat kelengkungan log-loss sama dengan matriks identitas.)

Neil G
sumber
1. Saya setuju bahwa seragam sebelumnya tidak berarti "tidak informatif" sebelumnya, tetapi komentar saya tentang tidak menilai nilai tertentu atas nilai lain masih berlaku (di bawah parameterisasi tertentu). 2. Kelayakan prior sangat memprihatinkan . Jika Anda memiliki prior yang tidak tepat dan memiliki data, tidak dijamin bahwa Anda akan memiliki posterior yang tepat. Jadi itu sangat memprihatinkan.
Greenparker
1. Tapi itulah intinya: parametrization itu arbitrer, jadi tidak ada artinya mengatakan bahwa Anda tidak menilai satu nilai di atas yang lain. 2. Dalam praktiknya, saya tidak pernah menemukannya. Mungkin itu menyangkut orang lain kurasa.
Neil G
1. Poin yang adil. 2. Saya tidak yakin masalah apa yang Anda hadapi, tetapi bahkan kemungkinan Gaussian sederhana dengan Jeffrey sebelumnya dapat memiliki posterior yang tidak tepat. Lihat jawaban saya di sini .
Greenparker
@ Greenparker Anda benar. Saya akan mengklarifikasi mengapa itu tidak mengganggu saya dalam jawaban saya.
Neil G
Saya rasa editnya tidak benar. Jika posterior tidak tepat maka MCMC pasti tidak masuk akal karena Anda mencoba untuk menggambar dari distribusi yang tidak ditentukan. Bayangkan mencoba sampel dari Uniform menggunakan skema pengambilan sampel apa pun. Meskipun, algoritma MCMC mungkin masih ergodic (ketika Anda memiliki pengulangan nol), tetapi sampel Anda tidak akan berguna. (0,)
Greenparker
5

The Wikipedia Halaman yang Anda berikan tidak benar-benar menggunakan istilah "varians-menstabilkan transformasi". Istilah "transformasi penstabil varians" umumnya digunakan untuk menunjukkan transformasi yang membuat varians dari variabel acak menjadi konstan. Meskipun dalam kasus Bernoulli, inilah yang terjadi dengan transformasi, bukan itu yang menjadi tujuannya. Tujuannya adalah untuk mendapatkan distribusi yang seragam, dan bukan hanya varian yang menstabilkan.

Ingatlah bahwa salah satu tujuan utama menggunakan Jeffreys sebelumnya adalah bahwa ia tidak berubah. Ini berarti bahwa jika Anda men-parameterkan ulang variabel, prior tidak akan berubah.

1.

The Jeffreys sebelumnya dalam kasus Bernoulli ini, seperti yang Anda menunjukkan, adalah Beta . p γ ( γ ) 1(1/2,1/2)

halγ(γ)1γ(1-γ).

Mengulangi dengan , kita dapat menemukan distribusi θ . Pertama mari kita lihat bahwa θ = arcsin ( γ=dosa2(θ)θ, dan sejak0<γ<1,0<θ<π/2. Ingatdosa2(x)+cos2(x)=1. F θ ( x )θ=arcsin(γ)0<γ<10<θ<π/2dosa2(x)+cos2(x)=1

Fθ(x)=P(θ<x)=P(sin2(θ)<sin2(x))=P(γ<sin2(x))=Fγ(sin2(x))fθ(x)=dFγ(sin2(x)dx=2sin(x)cos(x)pγ(sin2(x))sin(x)cos(x)1sin2(x)(1sin2(x))=1.

θ(0,π/2)sin2(θ)θ

2.

q(θ|x)f(x|θ)f(θ)f(x|θ).

(0,π/2)

Greenparker
sumber
Gagasan bahwa Anda "tidak berkomitmen pada nilai apa pun" dengan menggunakan difus sebelumnya salah. Buktinya adalah bahwa Anda dapat mengambil transformasi ruang apa pun dan prior difus akan berarti sesuatu yang sama sekali berbeda.
Neil G
Komentar saya tentang "tidak melakukan nilai apa pun" hanya merujuk pada parameterisasi tertentu. Tentu saja, transformasi akan mengubah cara massa didistribusikan (seperti dalam contoh Bernoulli ini).
Greenparker
Seperti saya katakan di bawah komentar Anda yang lain, parametrization itu sewenang-wenang, itulah sebabnya pernyataan "tidak berkomitmen terhadap nilai apa pun" tidak ada artinya.
Neil G