Saya memiliki variabel acak yang mengambil nilai dalam bilangan bulat tidak negatif , panggil probabilitas untuk setiap hasil . Saya dapat mencicipi dariDistribusi secara mandiri dan murah; Saat ini saya memiliki ukuran sampel. Sepertinya, dengan pembusukan kasar secara eksponensial.
Saya memiliki urutan bentuk kuadratik dengan koefisien positif:
- ...
- ...
Apa yang ingin saya miliki adalah interval kepercayaan untuk Itu kurang dari lebar, tapi aku akan mengambil apa pun yang bisa aku dapatkan.
Saya memiliki batasan ketat pada , dan karena koefisien dari Semua positif, mudah untuk mengubahnya menjadi batas yang ketat untuk ini Tapi saya tidak tahu bagaimana melakukan ini dengan benar dengan interval kepercayaan.
Tentang apa ini? Saya menemukan fenomena aneh dalam teori bilangan, dan saya tahu bagaimana membuktikan bahwa itu benar-benar terjadi, tetapi sebenarnya melakukan hal itu akan memerlukan upaya pemrograman di pihak saya dan banyak waktu di cluster lokal kami. Sebelum saya menginvestasikan waktu itu dan menyumbat mesin kami, saya ingin lebih yakin daripada saya bahwa fenomena itu nyata.
Saya ingin mengukur kewajaran klaim saya itu dan . Perkiraan saya menunjukkan itu ada di sekitar , itulah sebabnya saya ingin CI pada resolusi itu.
Perbaiki bilangan bulat besar , dan biarkan menjadi bagian yang dipilih secara seragam (Yaitu, setiap subset tertentu memiliki probabilitas dipilih). Membiarkan menjadi probabilitas yang tepat dari angka-angka dari tidak dapat ditulis sebagai jumlah dari dua elemen ; membiarkan. Agak sulit untuk dibuktikan, tetapi batasan itu ada dan . Sekarang tidak mengherankan kecil, dan meningkat meningkat, memiliki puncak dan kemudian meluruh secara eksponensial. Bagian yang aneh adalah bahwa ada bias terhadap 7. Artinya, secara eksperimental dan . Artinya, apa yang tidak mengejutkan sebenarnya tidak benar: distribusinya bimodal.
Saya dapat mengekspresikannya (menggunakan beberapa teori) seperti di atas tanpa batas dalam hal distribusi lain ini, didefinisikan oleh ini Itu berguna karena saya punya cara untuk mengikatnyaMenggunakan, seperti yang saya sebutkan di atas, beberapa perhitungan besar. Juga, saya memiliki kumpulan data yang sangat besar untuk variabel.
sumber
Jawaban:
Dalam jawaban saya, saya menyediakan banyak tautan ke materi latar belakang untuk menghemat ruang di sini. Saya akan menulis jawaban saya dengan mengambil info di tautan seperti yang diberikan.
Saya pikir pendekatan Bayesian cocok untuk masalah ini, terutama karena Anda hanya berusaha meyakinkan diri sendiri. Agak berbelit-belit untuk menggunakan interval kepercayaan untuk menjawab pertanyaan yang benar-benar Anda pedulikan, sungguh, seberapa masuk akalQ7<Q6 dan Q7<Q8 diberikan sampel dari zi distribusi? Pendekatan Bayesian memungkinkan Anda untuk menjawab pertanyaan ini secara langsung.
Fungsi kemungkinan
Membiarkanfk menjadi frekuensi yang diamati dari hasil integer k dalam sampel Anda dan biarkan N menjadi ukuran sampel. Fungsi kemungkinan sebanding dengan distribusi multinomial . Itu memiliki bentuk
Distribusi sebelumnya
The distribusi Dirichlet adalah pilihan alami untuk distribusi sebelum karena itu adalah sebelum konjugasi untuk kemungkinan multinomial. Itu memiliki bentuk
Sebelumnya ini memiliki sembilan hiperparameter (theαi nilai), dan mereka agak menyebalkan untuk dihadapi. Dalam konteks "sampel besar" ini, pilihan apa pun yang masuk akal dari nilai-nilai hiperparameter akan memiliki pengaruh yang dapat diabaikan pada hasilnya, tetapi tetap saja, saya pikir layak untuk mencurahkan sedikit usaha untuk memilih nilai-nilai yang masuk akal.
Inilah cara saya merekomendasikan pengaturan hyperparameters. Pertama, perhatikan bahwa di bawah distribusi iniE(zi)=αi∑8i=0αi . Selanjutnya, perhatikan bahwa distribusi entropi maksimum paling sederhana atas naturals adalah distribusi geometris . Jadi atur
KemudianE(zi)=ri(1−r1−r9) , sehingga distribusi zi nilai-nilai dipusatkan pada distribusi geometris (terpotong). Selanjutnya,Var(zi)∝1(A+1) , jadi nilai A mengontrol dispersi sekitar ekspektasi ini tetapi tidak berpengaruh pada ekspektasi itu sendiri.
Spesifikasi ini mengurangi jumlah hiperparameter dari sembilanαi nilai untuk adil r dan A . Saya akan menunda diskusi tentang nilai spesifikr dan A untuk sekarang.
Probabilitas posterior dari proposisi bunga
Distribusi posterior darizi nilai adalah distribusi Dirichlet berikut:
MembiarkanY={z0,...z8|Q7<Q6 and Q7<Q8} . Probabilitas posterior yang Anda minati adalah
Integral ini tidak dapat dilakukan, tetapi Anda dapat menghitung probabilitas bunga secara numerik menggunakan algoritma Monte Carlo berikut.
Untukj dari 1 untuk J ,
Cicipi satu setzi nilai dari distribusi posterior mereka.
Gunakan nilai sampel untuk menghitungyj=I(Q7<Q6)I(Q7<Q8) dimana I(⋅) adalah fungsi indikator.
KemudianPr(Q7<Q6 and Q7<Q8|f0,...,f8)≈∑Jj=0yjJ .
Keakuratan perkiraan Monte Carlo sama denganJ−−√ : J=104 akan memberi Anda setidaknya dua tempat desimal akurasi 19 kali dari 20, J=106 akan memberi Anda setidaknya tiga angka desimal akurasi 19 kali dari 20, dll.
Dan jika probabilitas minat posterior Anda tidak mendekati 0 atau 1, cukup sampel lebih banyak data, bilas, dan ulangi.
Sebelum hiperparameter, bagian dua
Eksponen darizi dalam ekspresi untuk kepadatan posterior
Dapat dilihat bahwa hyperparameterA memainkan peran yang sama dalam distribusi sebelumnya seperti N bermain dalam kemungkinan - itu semacam "ukuran sampel sebelumnya". Untuk memastikan bahwa prior memiliki pengaruh yang dapat diabaikan pada kesimpulan, cukup pilih nilaiA seperti yang A≪N ; sebagai contoh,A=1 .
Untuk mengaturr , perhatikan bahwa Anda dapat menghitung probabilitas proposisi sebelumnyaQ7<Q6 and Q7<Q8 menggunakan algoritma Monte Carlo yang sama seperti yang dijelaskan di atas tetapi dengan distribusi sebelumnya menggantikan distribusi posterior pada langkah 1 dari loop. Cobalah untuk menemukan nilair yang memberikan probabilitas sebelumnya 0,5 (atau lebih rendah, jika Anda merasa itu lebih masuk akal).
sumber
Saya kira z_k bukan probabilitas tetapi frekuensi sampel. Ini karena, jika tidak, Q_i (z_0, ..., z_i) bukan variabel acak. Dalam hal itu, menghitung varian Q_i adalah aljabar langsung. Tentukan, pertama, indikator acara Z_i yaitu 1 jika Z == i, 0 sebaliknya. Ini adalah variabel acak Bernoulli dengan probabilitas p_i. Anda dapat menghitung momen pertama dan kedua dari salah satu variabel ini dan mereka harus memberi Anda semua istilah yang diperlukan untuk menghitung varian Q_i.
sumber
Kevin, harap berhati-hati karena saya harus sedikit mengubah notasi Anda: Andazi Bukan milikku zi ini
Saya pikir solusi Bayesian berikut patut dicoba. Masak parameter acakΛ>0 dan biarkan Z1,…,Zn bersyarat iid, diberikan Λ=λ , dengan Zi∣Λ=λ∼Poisson(λ) . Gunakan notasiZ=(Z1,…,Zn) . Anda sudah memiliki sampelz=(z1,…,zn) dari Zi dengan n=228 . Tentukan variabel acak
sumber