Interval kepercayaan untuk polinomial

8

Saya memiliki variabel acak Z yang mengambil nilai dalam bilangan bulat tidak negatif {0,1,2,}, panggil probabilitas untuk setiap hasil zk:=P[Z=k]. Saya dapat mencicipi dariZDistribusi secara mandiri dan murah; Saat ini saya memiliki ukuran sampel228. Sepertinyaz00.24,z10.18,, dengan pembusukan kasar secara eksponensial.

Saya memiliki urutan bentuk kuadratik dengan koefisien positif:

  • Q0(z0)=14z02
  • Q1(z0,z1)=12z0z1
  • ...
  • Q7(z0,z1,,z7)=18(2z0z1+3z2z1+4z4z1+4z6z1+3z0z3+ +4z2z3+4z3z4+4z0z5+4z2z5+4z0z7)
  • ...

Apa yang ingin saya miliki adalah interval kepercayaan untuk QiItu kurang dari 104 lebar, tapi aku akan mengambil apa pun yang bisa aku dapatkan.

Saya memiliki batasan ketat pada zi, dan karena koefisien dari QSemua positif, mudah untuk mengubahnya menjadi batas yang ketat untuk Qini Tapi saya tidak tahu bagaimana melakukan ini dengan benar dengan interval kepercayaan.


Tentang apa ini? Saya menemukan fenomena aneh dalam teori bilangan, dan saya tahu bagaimana membuktikan bahwa itu benar-benar terjadi, tetapi sebenarnya melakukan hal itu akan memerlukan upaya pemrograman di pihak saya dan banyak waktu di cluster lokal kami. Sebelum saya menginvestasikan waktu itu dan menyumbat mesin kami, saya ingin lebih yakin daripada saya bahwa fenomena itu nyata.

Saya ingin mengukur kewajaran klaim saya itu Q7<Q6 dan Q7<Q8. Perkiraan saya menunjukkan ituQ6Q7 ada di sekitar 5104, itulah sebabnya saya ingin CI pada resolusi itu.

Perbaiki bilangan bulat besar n, dan biarkan A menjadi bagian yang dipilih secara seragam {1,2,,n} (Yaitu, setiap subset tertentu memiliki probabilitas 2ndipilih). MembiarkanQk(n) menjadi probabilitas yang tepat k dari angka-angka dari {2,3,,2n} tidak dapat ditulis sebagai jumlah dari dua elemen A; membiarkanQk=limnQk(n). Agak sulit untuk dibuktikan, tetapi batasan itu ada dan kQk=1. Sekarang tidak mengherankanQ0 kecil, dan k meningkat Qkmeningkat, memiliki puncak dan kemudian meluruh secara eksponensial. Bagian yang aneh adalah bahwa ada bias terhadap 7. Artinya, secara eksperimentalQ7<Q6 dan Q7<Q8. Artinya, apa yang tidak mengejutkan sebenarnya tidak benar: distribusinya bimodal.

Saya dapat mengekspresikannya Qi(menggunakan beberapa teori) seperti di atas tanpa batas dalam hal distribusi lain ini, didefinisikan oleh ziini Itu berguna karena saya punya cara untuk mengikatnyaziMenggunakan, seperti yang saya sebutkan di atas, beberapa perhitungan besar. Juga, saya memiliki kumpulan data yang sangat besar untukZ variabel.

Kevin O'Bryant
sumber
Ketidaknyamanan Anda dengan bahasa interval kepercayaan, tetapi presentasi yang ketat, menunjukkan Anda mungkin berada dalam posisi yang baik untuk memberi kami sedikit lebih banyak informasi untuk membantu Anda. Biasanya Anda dapat menentukan satu dari dua properti CI: baik cakupan atau panjangnya. Yang lain akan ditentukan oleh data. Namun, tidak biasa menentukan panjangnya: apakah Anda yakin ini yang Anda inginkan? Juga, tidak jelas apakah Anda memerlukan CI untuk Q secara terpisah atau bersamaan. Mungkin Anda bisa menunjukkan untuk apa Anda menggunakan CI ini?
whuber

Jawaban:

3

Dalam jawaban saya, saya menyediakan banyak tautan ke materi latar belakang untuk menghemat ruang di sini. Saya akan menulis jawaban saya dengan mengambil info di tautan seperti yang diberikan.

Saya pikir pendekatan Bayesian cocok untuk masalah ini, terutama karena Anda hanya berusaha meyakinkan diri sendiri. Agak berbelit-belit untuk menggunakan interval kepercayaan untuk menjawab pertanyaan yang benar-benar Anda pedulikan, sungguh, seberapa masuk akalQ7<Q6 dan Q7<Q8 diberikan sampel dari zidistribusi? Pendekatan Bayesian memungkinkan Anda untuk menjawab pertanyaan ini secara langsung.

Fungsi kemungkinan

Membiarkan fk menjadi frekuensi yang diamati dari hasil integer k dalam sampel Anda dan biarkan Nmenjadi ukuran sampel. Fungsi kemungkinan sebanding dengan distribusi multinomial . Itu memiliki bentuk

L(z0,...z8;f0,...f8)=i=08ziNfi.

Distribusi sebelumnya

The distribusi Dirichlet adalah pilihan alami untuk distribusi sebelum karena itu adalah sebelum konjugasi untuk kemungkinan multinomial. Itu memiliki bentuk

p(z0,...z8;α0,...,α8)i=08ziαi1

Sebelumnya ini memiliki sembilan hiperparameter (theαinilai), dan mereka agak menyebalkan untuk dihadapi. Dalam konteks "sampel besar" ini, pilihan apa pun yang masuk akal dari nilai-nilai hiperparameter akan memiliki pengaruh yang dapat diabaikan pada hasilnya, tetapi tetap saja, saya pikir layak untuk mencurahkan sedikit usaha untuk memilih nilai-nilai yang masuk akal.

Inilah cara saya merekomendasikan pengaturan hyperparameters. Pertama, perhatikan bahwa di bawah distribusi iniE(zi)=αii=08αi. Selanjutnya, perhatikan bahwa distribusi entropi maksimum paling sederhana atas naturals adalah distribusi geometris . Jadi atur

αi+1=rαi=riα0,0<r<1,

α0=A(1r1r9).

Kemudian E(zi)=ri(1r1r9), sehingga distribusi zinilai-nilai dipusatkan pada distribusi geometris (terpotong). Selanjutnya,Var(zi)1(A+1), jadi nilai A mengontrol dispersi sekitar ekspektasi ini tetapi tidak berpengaruh pada ekspektasi itu sendiri.

Spesifikasi ini mengurangi jumlah hiperparameter dari sembilan αi nilai untuk adil r dan A. Saya akan menunda diskusi tentang nilai spesifikr dan A untuk sekarang.

Probabilitas posterior dari proposisi bunga

Distribusi posterior dari zi nilai adalah distribusi Dirichlet berikut:

p(z0,...z8|f0,...,f8)i=08ziαi+Nfi1.

Membiarkan Y={z0,...z8|Q7<Q6 and Q7<Q8}. Probabilitas posterior yang Anda minati adalah

Pr(Q7<Q6 and Q7<Q8|f0,...,f8)Yi=08ziαi+Nfi1dzi.

Integral ini tidak dapat dilakukan, tetapi Anda dapat menghitung probabilitas bunga secara numerik menggunakan algoritma Monte Carlo berikut.

Untuk j dari 1 untuk J,

  1. Cicipi satu set zi nilai dari distribusi posterior mereka.

  2. Gunakan nilai sampel untuk menghitung yj=I(Q7<Q6)I(Q7<Q8) dimana I() adalah fungsi indikator.

Kemudian Pr(Q7<Q6 and Q7<Q8|f0,...,f8)j=0JyjJ.

Keakuratan perkiraan Monte Carlo sama dengan J: J=104 akan memberi Anda setidaknya dua tempat desimal akurasi 19 kali dari 20, J=106 akan memberi Anda setidaknya tiga angka desimal akurasi 19 kali dari 20, dll.

Dan jika probabilitas minat posterior Anda tidak mendekati 0 atau 1, cukup sampel lebih banyak data, bilas, dan ulangi.

Sebelum hiperparameter, bagian dua

Eksponen dari zi dalam ekspresi untuk kepadatan posterior

αi+Nfi1=Ari(1r1r9)+Nfi1=AE(zi)+Nfi1

Dapat dilihat bahwa hyperparameter A memainkan peran yang sama dalam distribusi sebelumnya seperti Nbermain dalam kemungkinan - itu semacam "ukuran sampel sebelumnya". Untuk memastikan bahwa prior memiliki pengaruh yang dapat diabaikan pada kesimpulan, cukup pilih nilaiA seperti yang AN; sebagai contoh,A=1.

Untuk mengatur r, perhatikan bahwa Anda dapat menghitung probabilitas proposisi sebelumnyaQ7<Q6 and Q7<Q8menggunakan algoritma Monte Carlo yang sama seperti yang dijelaskan di atas tetapi dengan distribusi sebelumnya menggantikan distribusi posterior pada langkah 1 dari loop. Cobalah untuk menemukan nilair yang memberikan probabilitas sebelumnya 0,5 (atau lebih rendah, jika Anda merasa itu lebih masuk akal).

Cyan
sumber
Tidak, saya hanya melewatkan beberapa hal teknis. Analisis yang lebih lengkap secara teknis akan dimulai dengan proses Dirichlet dan kemudian menunjukkan bahwa hasil memarginalkan rangkaian tak relevan yang tak terhitung jumlahnya tak relevanziparameternya adalah distribusi Dirichlet yang saya berikan di atas.
Cyan
1

Saya kira z_k bukan probabilitas tetapi frekuensi sampel. Ini karena, jika tidak, Q_i (z_0, ..., z_i) bukan variabel acak. Dalam hal itu, menghitung varian Q_i adalah aljabar langsung. Tentukan, pertama, indikator acara Z_i yaitu 1 jika Z == i, 0 sebaliknya. Ini adalah variabel acak Bernoulli dengan probabilitas p_i. Anda dapat menghitung momen pertama dan kedua dari salah satu variabel ini dan mereka harus memberi Anda semua istilah yang diperlukan untuk menghitung varian Q_i.

AdamO
sumber
Tidak, itu zi adalah konstanta alam, dan akibatnya Q7juga. Ini adalah bilangan real, tetapi pertanyaannya adalah bilangan real mana . Sampling saya memungkinkan saya memperkirakanz^i, dan jika saya tancapkan ke penghubung rumus Q7 ke zi, Saya mendapatkan perkiraan untuk Q7 (sekitar 0.07). Tapi saya tidak mengerti seberapa bagus perkiraan itu. Jika saya mengambil 99% CI untuk masing-masingzidan colokkan, saya mendapat interval, tapi apa tingkat kepercayaannya? Saya tidak berpikir CI untukziindependen, baik.
Kevin O'Bryant
Kurangnya kemandirian tidak mengkhawatirkan di sini, Kevin (Anda dapat membenarkan hal ini dengan menganalisis distribusi multinomial yang sebenarnya dari z^ijika Anda ingin).
whuber
Karena Anda sudah dapat menghitung taksiran untuk Q7 dari data Anda, bagaimana menggunakan beberapa teknik resampling seperti bootstrap untuk menemukan CI Q7? en.wikipedia.org/wiki/Bootstrapping_(statistics)
Zen
@ Zen: Saya pernah mendengar tentang bootstrap, tetapi tidak pernah berpikir itu akan menjadi sesuatu yang terjadi pada saya. Serius, saya mencoba untuk membuatnya bekerja, tetapi perlu waktu untuk melakukan pengujian ulang 1000 kali (masing-masing memiliki resampling228poin). Bahkan 1000 sampel ukuran216Butuh waktu 2 jam.
Kevin O'Bryant
1

Kevin, harap berhati-hati karena saya harus sedikit mengubah notasi Anda: Anda ziBukan milikku ziini

Saya pikir solusi Bayesian berikut patut dicoba. Masak parameter acakΛ>0 dan biarkan Z1,,Zn bersyarat iid, diberikan Λ=λ, dengan ZiΛ=λPoisson(λ). Gunakan notasiZ=(Z1,,Zn). Anda sudah memiliki sampelz=(z1,,zn) dari Zidengan n=228. Tentukan variabel acak

Θi=P{Zi=kΛ}=eΛΛkk!,
untuk i0(jika ini tidak jelas, lihatlah ). Sekarang, dalam formulasi ini bentuk kuadratik AndaQi=Qi(Θ0,,Θi)=Qi(Λ) adalah fungsi dari Λ. SehinggaQiItu acak dan Anda ingin menentukan probabilitas posterior
P{Q7<Q6andQ7<Q8Z=z}.()
Dengan prior ΛGamma(a,b), menggunakan Bayes Theorem yang kita miliki
ΛZ=zGamma(a+i=1nzi,b+n).
Anda menghitung () menghasilkan iid λiDari distribusi sebelumnya (gunakan R !) dan komputasi
1Ni=1NI(,Q6(λi))(Q8(λi),)(Q7(λi)),
yang menyatu, oleh hukum yang kuat dari sejumlah besar, untuk ()hampir pasti. Untuk mendapatkan "ya" untuk pertanyaan awal Anda, probabilitas posterior ini harus "cukup besar". Dengan sampel yang sangat besar (n=228), Saya pikir mungkin untuk bermain dengan nilai - nilai a dan b untuk membuat pilihan Anda sebelumnya tidak banyak "informatif".
Zen
sumber
Distribusi Poisson itu tampaknya seperti asumsi yang agak membatasi, bukan?
Cyan
Kami membutuhkan distribusi, yang merupakan dukungan Z+, yang memungkinkan perhitungan. Mari kita lihat apa yang dapat ditemukan Kevin dengan model ini.
Zen