Apa rumus (perkiraan atau tepat) untuk interval prediksi untuk variabel acak Binomial?
Asumsikan , dan kami mengamati (diambil dari ). The dikenal.
Tujuan kami adalah untuk mendapatkan interval prediksi 95% untuk hasil imbang baru dari .
Estimasi titik adalah , di mana . Sebuah selang kepercayaan untuk \ hat {p} sangat mudah, tapi saya tidak dapat menemukan formula untuk interval prediksi untuk Y . Jika kita tahu p (daripada \ hat {p} ), maka interval prediksi 95% hanya melibatkan menemukan kuantil binomial. Apakah ada sesuatu yang jelas saya abaikan?p Yp p
confidence-interval
binomial
prediction-interval
Statseeker
sumber
sumber
Jawaban:
Ok, ayo coba ini. Saya akan memberikan dua jawaban - yang Bayesian, yang menurut saya sederhana dan alami, dan salah satu yang mungkin sering.
Solusi Bayesian
Kita asumsikan Beta sebelumnya pada , i, e., P ~ B e t a ( α , β ) , karena model Beta-Binomial adalah konjugat, yang berarti bahwa distribusi posterior juga distribusi Beta dengan parameter α = α + k , β = β + n - k , (saya menggunakan k untuk menunjukkan jumlah keberhasilan dalam n percobaan, bukan y ). Dengan demikian, kesimpulan sangat disederhanakan. Sekarang, jika Anda memiliki pengetahuan sebelumnya tentang nilai kemungkinanhal p ∼ B e t a ( α , β) α^= α + k , β^= β+ n - k k n y , Anda dapat menggunakannya untuk mengatur nilai α dan β , yaitu, untuk menentukan Beta Anda sebelumnya, jika tidak, Anda dapat menganggap seragam (noninformatif) sebelumnya, dengan α = β = 1 , atau prior noninformatif lainnya (lihat contohdi sini). Bagaimanapun, posterior Andahal α β α = β= 1
Dalam inferensi Bayesian, semua yang penting adalah probabilitas posterior, yang berarti bahwa setelah Anda tahu itu, Anda dapat membuat kesimpulan untuk semua kuantitas lain dalam model Anda. Anda ingin membuat inferensi pada diamati : khususnya, pada vektor hasil baru y = y 1 , ... , y m , di mana m belum tentu sama untuk n . Khususnya, untuk setiap j = 0 , ... , m , kami ingin menghitung probabilitas untuk mendapatkan keberhasilan j secara tepat dalam percobaan m berikutnya , mengingat bahwa kami mendapat ky y=y1,…,ym m n j=0,…,m j m k keberhasilan dalam sebelumnya uji coba; fungsi massa prediktif posterior:n
Namun, model Binomial kami untuk berarti bahwa, kondisional pada p memiliki nilai tertentu, kemungkinan memiliki j keberhasilan dalam m percobaan tidak tergantung pada hasil masa lalu: itu hanyaY p j m
Jadi ungkapan itu menjadi
Hasil integral ini adalah distribusi terkenal yang disebut distribusi Beta-Binomial: melewatkan bagian-bagian, kita mendapatkan ekspresi yang mengerikan
Estimasi titik kami untuk , mengingat kerugian kuadratik, tentu saja adalah rata-rata dari distribusi ini, yaitu,j
Sekarang, mari kita cari interval prediksi. Karena ini adalah distribusi diskrit, kita tidak memiliki ekspresi bentuk tertutup untuk , sehingga P r ( j 1 ≤ j ≤ j 2 ) = 0,95 . Alasannya adalah bahwa, tergantung pada bagaimana Anda mendefinisikan suatu kuantil, untuk distribusi diskrit, fungsi kuantil bukanlah fungsi atau fungsi diskontinyu. Tapi ini bukan masalah besar: untuk m kecil , Anda bisa menuliskan probabilitas m P r ( j = 0[j1,j2] Pr(j1≤j≤j2)=0.95 m m dan dari sini temukan j 1 , j 2 sedemikian rupa sehinggaPr(j=0|m,n,k),Pr(j≤1|m,n,k),…,Pr(j≤m−1|m,n,k) j1,j2
Tentu saja Anda akan menemukan lebih dari satu pasangan, sehingga Anda akan idealnya mencari terkecil seperti yang di atas adalah puas. Catat itu[j1,j2]
are just the values of the CMF (Cumulative Mass Function) of the Beta-Binomial distribution, and as such there is a closed form expression, but this is in terms of the generalized hypergeometric function and thus is quite complicated. I'd rather just install the R packagep0,…,pm−1 in one go, just write:
extraDistr
and callpbbinom
to compute the CMF of the Beta-Binomial distribution. Specifically, if you want to compute all the probabilitiesdi manaα β p
alpha
danbeta
adalah nilai-nilai parameter Beta Anda sebelumnya, yaitu, dan β (dengan demikian 1 jika Anda menggunakan seragam sebelum lebih dari p ). Tentu saja semua akan jauh lebih sederhana jika R menyediakan fungsi kuantil untuk distribusi Beta-Binomial, tetapi sayangnya tidak.Contoh praktis dengan solusi Bayesian
Misalkan , k = 70 (dengan demikian kami awalnya mengamati 70 keberhasilan dalam 100 percobaan). Kami menginginkan estimasi titik dan interval prediksi-95% untuk jumlah keberhasilan j dalam m = 20 percobaan berikutnya. Kemudiann=100 k=70 j m=20
Peluangnya adalah
Thus, by looking at the above probabilities, we see thatj2=18 and j1=9 . The probability of this Bayesian prediction interval is 0.9778494, which is larger than 0.95. We could find shorter intervals such that Pr(j1≤j≤j2|m,n,k)≥0.95 , but in that case at least one of the two inequalities for the tail probabilities wouldn't be satisfied.
Frequentist solution
I'll follow the treatment of Krishnamoorthy and Peng, 2011. LetY∼Binom(m,p) and X∼Binom(n,p) be independently Binominally distributed. We want a 1−2α− prediction interval for Y , based on a observation of X . In other words we look for I=[L(X;n,m,α),U(X;n,m,α)] such that:
The "≥1−2α " is due to the fact that we are dealing with a discrete random variable, and thus we cannot expect to get exact coverage...but we can look for an interval which has always at least the nominal coverage, thus a conservative interval. Now, it can be proved that the conditional distribution of X given X+Y=k+j=s is hypergeometric with sample size s , number of successes in the population n and population size n+m . Thus the conditional pmf is
The conditional CDF ofX given X+Y=s is thus
The first great thing about this CDF is that it doesn't depend onp , which we don't know. The second great thing is that it allows to easily find our PI: as a matter of fact, if we observed a value k of X, then the 1−α lower prediction limit is the smallest integer L such that
correspondingly, the the1−α upper prediction limit is the largest integer such that
Thus,[L,U] is a prediction interval for Y of coverage at least 1−2α . Note that when p is close to 0 or 1, this interval is conservative even for large n , m , i.e., its coverage is quite larger than 1−2α .
Practical example with the Frequentist solution
Same setting as before, but we don't need to specifyα and β (there are no priors in the Frequentist framework):
The point estimate is now obtained using the MLE estimate for the probability of successes,p^=kn , which in turns leads to the following estimate for the number of successes in m trials:
For the prediction interval, the procedure is a bit different. We look for the largestU such that Pr(X≤k|k+U,n,n+m)=H(k;k+U,n,n+m)>α , thus let's compute the above expression for all U in [0,m] :
We can see that the largestU such that the probability is still larger than 0.025 is
Same as for the Bayesian approach. The lower prediction boundL is the smallest integer such that Pr(X≥k|k+L,n,n+m)=1−H(k−1;k+L,n,n+m)>α , thus
Thus our frequentist "exact" prediction interval is[L,U]=[8,18] .
sumber