Memperkirakan parameter distribusi yang seragam: sebelumnya tidak patut?

10

Kami memiliki sampel N, Xi , dari distribusi seragam mana tidak diketahui. Perkirakan dari data.[0,θ]θθ

Jadi, aturan Bayes ...

f(θ|Xi)=f(Xi|θ)f(θ)f(Xi)

dan kemungkinannya adalah:

f(Xi|θ)=i=1N1θ (edit: ketika untuk semua , dan 0 sebaliknya - terima kasih whuber)0Xiθi

tetapi tanpa informasi lain tentang , sepertinya prior harus sebanding dengan (yaitu seragam) atau ke (prior Jeffreys?) pada tetapi kemudian integral saya tidak akan bertemu, dan saya tidak yakin bagaimana untuk melanjutkan. Ada ide?θ11L[0,]

Akan
sumber
2
Kemungkinan Anda salah: itu akan menjadi nol setiap kali kurang dari terbesar . X iθXsaya
Whuber
Bisakah Anda menunjukkan integral apa yang Anda ambil?
Ya, jadi, saya kira saya tidak tahu bagaimana menghadapi yang tidak tepat sebelumnya. Misalnya, saya ingin menulisf[Xsaya]=Θf(Xsaya|θ)f(θ)dθ
Will
1
Untuk prior yang tidak tepat, = = dan untuk Anda juga memperolehKarena hampir pasti, sudah pasti integral akan bertemu. f[Xsaya]=Θf(Xsaya|θ)f(θ)dθmaks(Xsaya)θ-Ndθmaks(Xsaya)1-N/(N-1)f(θ)1/θmaks(Xsaya)-N/N.maksXsaya>0
whuber
1
Posterior referensi Bernardo adalah Pareto - lihat katalog prior noninformative .
Stéphane Laurent

Jawaban:

4

Ini telah menghasilkan beberapa debat yang menarik, tetapi perhatikan bahwa itu benar-benar tidak membuat banyak perbedaan dengan pertanyaan yang menarik. Secara pribadi saya pikir itu karena adalah parameter skala, argumen grup transformasi sesuai, yang mengarah ke sebelumθ

hal(θ|saya)=θ-1catatan(UL.)θ-1L.<θ<U

Distribusi ini memiliki bentuk yang sama di bawah penyelamatan masalah (kemungkinan juga tetap "invarian" di bawah penyelamatan). Kernel dari sebelumnya ini, dapat diturunkan dengan menyelesaikan persamaan fungsional . Nilai bergantung pada masalah, dan benar-benar hanya masalah jika ukuran sampel sangat kecil (seperti 1 atau 2). Posterior adalah pareto terpotong, diberikan oleh:f(y)=y-1Sebuahf(Sebuahy)=f(y)L.,U

hal(θ|Dsaya)=Nθ-N-1(L.)-N-U-NL.<θ<UdimanaL.=mSebuahx(L.,X(N))
Di mana adalah Nth statistik pesanan, atau nilai maksimum sampel. Kita mendapatkan rata-rata posterior Jika kita atur dan sehingga kita mendapatkan eksresi lebih sederhana .X(N)
E(θ|DI)=N((L)1NU1N)(N1)((L)NUN)=NN1L(1[LU]N11[LU]N)
UL0E(θ|Dsaya)=NN-1X(N)

Tapi sekarang anggaplah kita menggunakan prior yang lebih umum, yang diberikan oleh (perhatikan bahwa kita menjaga batas untuk memastikan semuanya benar - tidak ada matematika tunggal kemudian ). Posterior kemudian sama seperti di atas, tetapi dengan diganti dengan - asalkan . Mengulangi perhitungan di atas, kami rata-rata posterior disederhanakanhal(θ|csaya)θ-c-1L.,UNc+Nc+N0

E(θ|Dsaya)=N+cN+c-1X(N)

Jadi seragam sebelumnya ( ) akan memberikan perkiraan asalkan (rata-rata tidak terbatas untuk ). Ini menunjukkan bahwa perdebatan di sini agak seperti apakah menggunakan atau sebagai pembagi dalam estimasi varians.c=-1N-1N-2X(N)N2N=2NN-1

Salah satu argumen yang menentang penggunaan seragam yang tidak tepat sebelum dalam kasus ini adalah bahwa posterior tidak tepat ketika , karena sebanding dengan . Tapi ini hanya masalah jika atau sangat kecil.N=1θ-1N=1

probabilityislogic
sumber
1

Karena tujuan di sini mungkin untuk mendapatkan beberapa estimasi valid dan berguna , distribusi sebelumnya harus konsisten dengan spesifikasi distribusi populasi dari mana sampel berasal. Ini TIDAK berarti bahwa kami "menghitung" sebelum menggunakan sampel itu sendiri - ini akan membatalkan validitas seluruh prosedur. Kita tahu bahwa populasi dari mana sampel berasal adalah populasi dari variabel acak seragam iid masing-masing berkisar pada . Ini adalah asumsi yang dipertahankan dan merupakan bagian dari informasi sebelumnya yang kami miliki (dan tidak ada hubungannya dengan sampel , yaitu dengan realisasi spesifik dari subset dari variabel acak ini).[ 0 , θ ]θ[0,θ]

Sekarang asumsikan bahwa populasi ini terdiri dari variabel acak, (sedangkan sampel kami terdiri dari realisasi dari variabel acak). Asumsi yang dipertahankan memberitahu kita bahwa n < m n max i = 1 , . . . , N { X i } max j = 1 , . . . , m { X j } θmn<mn

maxi=1,...,n{Xi}maxj=1,...,m{Xj}θ

untuk kekompakan . Kemudian kita memiliki yang juga dapat ditulis θ X θ = c X maxi=1,...,n{Xi}XθX

θ=cXc1

Fungsi densitas dari of iid Uniform rv berkisar pada adalah N [ 0 , θ ] f X ( x ) = N ( x ) N - 1maxN[0,θ]

fX(x)=N(x)N1θN

untuk dukungan , dan nol di tempat lain. Kemudian dengan menggunakan dan menerapkan rumus perubahan variabel kami memperoleh distribusi sebelumnya untuk yang konsisten dengan asumsi yang dipertahankan: θ = c X * θ f p ( θ ) = N ( θ[0,θ]θ=cXθ

fp(θ)=N(θc)N1θN1c=NcNθ1θ[x,]

yang mungkin tidak tepat jika kita tidak menentukan konstanta sesuai. Tetapi minat kami terletak pada memiliki posterior yang tepat untuk , dan juga, kami tidak ingin membatasi nilai-nilai yang mungkin dari (di luar batasan yang tersirat oleh asumsi yang dipertahankan). Jadi kita meninggalkan tidak ditentukan. Kemudian tulis posteriornyaq q c X = { x 1 , . . , x n }cθθc
X={x1,..,xn}

f(θX)θ-NNcNθ-1f(θX)=SEBUAHNcNθ-(N+1)

untuk beberapa konstanta normalisasi A. Kami ingin

Sθf(θX)dθ=1xSEBUAHNcNθ-(N+1)dθ=1

SEBUAHNcN1-Nθ-N|x=1SEBUAH=(cx)N

Memasukkan ke dalam posterior

f(θX)=(cx)NNcNθ-(N+1)=N(x)Nθ-(N+1)

Perhatikan bahwa konstanta tidak ditentukan dari distribusi sebelumnya telah dengan mudah dibatalkan.c

Posterior merangkum semua informasi yang dapat diberikan sampel spesifik tentang nilai . Jika kita ingin mendapatkan nilai spesifik untuk kita dapat dengan mudah menghitung nilai yang diharapkan dari posterior, θ E ( θ X ) = x θ N ( x ) N θ - ( N + 1 ) d θ = - Nθθ

E(θX)=xθN(x)Nθ-(N+1)dθ=-NN-1(x)Nθ-N+1|x=NN-1x

Apakah ada intuisi dalam hasil ini? Nah, ketika jumlah meningkat, semakin besar kemungkinan bahwa realisasi maksimum di antara mereka akan semakin dekat dengan batas atas mereka, - yang persis seperti nilai rata-rata posterior mencerminkan: jika, katakanlah , , tetapi jika . Ini menunjukkan bahwa taktik kami mengenai pemilihan sebelumnya adalah masuk akal dan konsisten dengan masalah yang ada, tetapi belum tentu "optimal" dalam arti tertentu.θ θ N = 2 E ( θXθθN=2E(θX)=2xN=10E(θX)=109x

Alecos Papadopoulos
sumber
1
Mendasarkan sebelumnya pada data terdengar mencurigakan bagi saya. Bagaimana Anda membenarkan pendekatan ini?
whuber
2
Saya tidak menentang fakta bahwa prior Anda bukan "yang terbaik". Di mana aku mengatakan sesuatu seperti itu? Saya hanya mencoba memahami pendekatan Anda. Saya belum memahami kesetaraan ini. Jika konstan dalam kesetaraan , apakah itu berarti dan keduanya nonrandom? Omong-omong, Anda tidak menggunakan fakta bahwa dalam derivasi dari sebelumnya, bukan? (cc @whuber)θ = c X X cθ=cXXθc1
Stéphane Laurent
1
Dan dukungan Anda sebelumnya tergantung pada data? ( )θ[x,[
Stéphane Laurent
3
Tergantung sebelumnya (bahkan jika ini hanya melalui dukungan) pada data terdengar salah: Anda tidak dapat mengetahui maksimum sampel sebelum sampel telah dihasilkan . Selain itu, Anda mengklaim bahwa adalah kesetaraan yang hampir pasti, dengan kedua dan acak (dengan demikian ada korelasi ). Tetapi ini menyiratkan bahwa distribusi posterior (yang merupakan distribusi bersyarat dari diberikan sampel) adalah massa Dirac di . Dan ini bertentangan dengan derivasi Anda dari distribusi posterior. ... (tidak ada karakter yang tersisa ...) θ X 1 θθ=cXθX1θθcx
Stéphane Laurent
1
Distribusi posterior adalah Dirac pada berarti bahwa adalah . Teorema Bayes bukanlah penyebabnya. Anda menghancurkan segalanya dengan mengasumsikan . Ini menyiratkan , sehingga distribusi bersyarat dari diberikan adalah massa Dirac di , sedangkan asumsi aslinya adalah bahwa distribusi ini adalah distribusi seragam pada . θcxθ cxθ=cXX=θ/cXθθ/c(0,θ)
Stéphane Laurent
0

Teorema Distribusi Sebelum Seragam (case interval):

"Jika totalitas informasi Anda tentang eksternal ke data ditangkap oleh proposisi tunggal maka satu-satunya spesifikasi sebelumnya yang mungkin secara logis-konsisten-internal Anda adalah θD

B={{Nilai yang mungkin untuk θ}={intervalnya (Sebuah,b)},Sebuah<b}
f(θ)=Seragam(Sebuah,b)

Dengan demikian, Anda spesifikasi sebelumnya harus sesuai dengan prior Jeffrey jika Anda benar-benar percaya pada teorema di atas. "

Bukan bagian dari Teorema Distribusi Seragam Sebelumnya:

Atau Anda dapat menentukan distribusi sebelumnya sebagai distribusi Pareto, yang merupakan distribusi konjugat untuk seragam, mengetahui bahwa Anda distribusi posterior harus menjadi distribusi seragam lain dengan konjugasi. Namun, jika Anda menggunakan distribusi Pareto, maka Anda perlu menentukan parameter distribusi Pareto dalam beberapa cara.f(θ)


sumber
4
Pertama Anda mengatakan jawaban "hanya mungkin konsisten secara internal" adalah distribusi yang seragam dan kemudian Anda melanjutkan untuk mengusulkan alternatif. Kedengarannya tidak masuk akal dan tidak konsisten bagi saya :-).
Whuber
2
Saya tidak bisa setuju. Sebagai contoh, juga himpunanKetika PDF dari adalah untuk . Tetapi menurut "teorema," yang pdf-nya dalam interval itu. Singkatnya, meskipun proposisi tidak bergantung pada bagaimana masalah parameternya, kesimpulan "teorema" bergantung pada parameterisasi, di mana ia ambigu. B{θ|θ3(Sebuah3,b3)}.ΘSeragam(Sebuah,b),Ψ=Θ31/(3ψ2/3(b-Sebuah))Sebuah3<ψ<b3ΨSeragam(Sebuah3,b3)1/(b3-Sebuah3)
whuber
2
BabakP: Bagaimana orang bisa mengatakan ini adalah teorema ? Teorema adalah klaim matematis dengan bukti matematis. "Teorema" ini akan lebih tepat disebut sebagai "prinsip", tetapi tidak masuk akal karena bertentangan, seperti yang ditunjukkan oleh @whuber.
Stéphane Laurent
2
Terima kasih untuk referensi BabakP. Saya ingin menunjukkan bahwa "sketsa bukti" itu palsu. Draper membagi interval menjadi jumlah terbatas dengan nilai spasi yang sama dan "lolos ke batas". Siapa pun dapat membagi interval menjadi nilai-nilai yang berjarak untuk memperkirakan kepadatan apa pun yang mereka sukai dan dengan cara yang sama melewati batas, menghasilkan sewenang-wenang yang sempurna "hanya mungkin spesifikasi sebelumnya yang secara logis konsisten secara internal." Hal-hal semacam ini - yaitu, menggunakan matematika buruk dalam upaya untuk menunjukkan bahwa non-Bayesian adalah tidak logis - memberikan analisis Bayesian nama yang buruk (tidak layak). (cc @ Stéphane.)
whuber
1
@ Stéphane Tolong maafkan ketidakpekaan saya ( insensibilité ) - Saya mengagumi keahlian Anda berinteraksi di sini dalam bahasa kedua dan tidak sengaja menggunakan istilah yang tidak jelas! Bogus adalah kata sifat yang berasal dari istilah slang AS berusia 200 tahun yang merujuk pada mesin untuk memalsukan uang. Dalam hal ini adalah mesin matematika untuk teorema pemalsuan :-).
whuber