Latar belakang: Saya punya sampel yang ingin saya modelkan dengan distribusi berekor berat. Saya memiliki beberapa nilai ekstrim, sehingga penyebaran pengamatannya relatif besar. Ide saya adalah memodelkan ini dengan distribusi Pareto umum, dan itulah yang saya lakukan. Sekarang, 0,975 kuantil dari data empiris saya (sekitar 100 titik data) lebih rendah daripada 0,975 kuantil dari distribusi Generalized Pareto yang saya paskan dengan data saya. Sekarang, saya pikir, apakah ada cara untuk memeriksa apakah perbedaan ini perlu dikhawatirkan?
Kita tahu bahwa distribusi asimtotik dari kuantil diberikan sebagai:
Jadi saya pikir itu akan menjadi ide yang bagus untuk menghibur rasa ingin tahu saya dengan mencoba untuk merencanakan 95% band kepercayaan di sekitar 0,975 kuantil dari distribusi Pareto umum dengan parameter yang sama seperti yang saya dapatkan dari pemasangan data saya.
Seperti yang Anda lihat, kami bekerja dengan beberapa nilai ekstrem di sini. Dan karena penyebarannya sangat besar, fungsi kerapatan memiliki nilai yang sangat kecil, membuat pita kepercayaan mencapai urutan menggunakan varian dari rumus normalitas asimptotik di atas:
Jadi, ini tidak masuk akal. Saya memiliki distribusi dengan hanya hasil positif, dan interval kepercayaan mencakup nilai negatif. Jadi ada sesuatu yang terjadi di sini. Jika saya menghitung band di sekitar 0,5 quantile, band-band itu tidak begitu besar, tetapi masih besar.
################################################
# Test at the 0.975 quantile
################################################
#normal(1,1)
#find 0.975 quantile
q_norm<-qnorm(0.975, mean=1, sd=1)
#find density value at 97.5 quantile:
f_norm<-dnorm(q_norm, mean=1, sd=1)
#confidence bands absolute value:
band=1.96*sqrt((0.975*0.025)/(100*(f_norm)^2))
u=q_norm+band
l=q_norm-band
hit<-1:10000
for(i in 1:10000){
d<-rnorm(n=100, mean=1, sd=1)
dq<-quantile(d, probs=0.975)
if(dq[[1]]>=l & dq[[1]]<=u) {hit[i]=1} else {hit[i]=0}
}
sum(hit)/10000
#################################################################3
# Test at the 0.5 quantile
#################################################################
#using lower quantile:
#normal(1,1)
#find 0.7 quantile
q_norm<-qnorm(0.7, mean=1, sd=1)
#find density value at 0.7 quantile:
f_norm<-dnorm(q_norm, mean=1, sd=1)
#confidence bands absolute value:
band=1.96*sqrt((0.7*0.3)/(100*(f_norm)^2))
u=q_norm+band
l=q_norm-band
hit<-1:10000
for(i in 1:10000){
d<-rnorm(n=100, mean=1, sd=1)
dq<-quantile(d, probs=0.7)
if(dq[[1]]>=l & dq[[1]]<=u) {hit[i]=1} else {hit[i]=0}
}
sum(hit)/10000
EDIT2 : Saya menarik kembali apa yang saya klaim di EDIT pertama di atas, seperti yang ditunjukkan dalam komentar oleh seorang pria yang membantu. Ini sebenarnya terlihat seperti CI ini bagus untuk distribusi normal.
Apakah normalitas asimptotik dari statistik urutan ini hanya ukuran yang sangat buruk untuk digunakan, jika seseorang ingin memeriksa apakah beberapa kuantil yang diamati kemungkinan diberikan dengan distribusi kandidat tertentu?
Secara intuitif, bagi saya sepertinya ada hubungan antara varian distribusi (yang orang pikir menciptakan data, atau dalam contoh R saya, yang kita tahu membuat data) dan jumlah pengamatan. Jika Anda memiliki 1000 pengamatan dan varian yang sangat besar, band-band ini buruk. Jika seseorang memiliki 1000 pengamatan dan varians kecil, band-band ini mungkin masuk akal.
Adakah yang mau membersihkan ini untukku?
band = 1.96*sqrt((0.975*0.025)/(100*n*(f_norm)^2))
Jawaban:
Saya menganggap derivasi Anda berasal dari sesuatu seperti yang ada di halaman ini .
Nah, mengingat perkiraan normal yang masuk akal. Tidak ada yang menghentikan perkiraan normal untuk memberi Anda nilai negatif, itulah sebabnya ini merupakan perkiraan buruk untuk nilai terikat ketika ukuran sampel kecil dan / atau variansnya besar. Jika Anda mendongkrak ukuran sampel, maka interval akan menyusut karena ukuran sampel dalam penyebut ekspresi untuk lebar interval. Varians memasuki masalah melalui kepadatan: untuk mean yang sama, varians yang lebih tinggi akan memiliki kepadatan yang berbeda, lebih tinggi pada margin dan lebih rendah di dekat pusat. Densitas yang lebih rendah berarti interval kepercayaan yang lebih luas karena densitasnya berada dalam penyebut ekspresi.
Dalam penulisan ulang kode Anda berikut ini, saya membuat batas kepercayaan pada data empiris dan menguji untuk melihat apakah kuantil teoretis termasuk di dalamnya. Itu lebih masuk akal bagi saya, karena kuantil dari kumpulan data yang diamati adalah variabel acak. Cakupan untuk n> 1000 adalah ~ 0,95. Untuk n = 100 lebih buruk di 0,85, tapi itu diharapkan untuk kuantil dekat ekor dengan ukuran sampel kecil.
Sejauh menentukan ukuran sampel "cukup besar", well, lebih besar lebih baik. Apakah sampel tertentu "cukup besar" sangat bergantung pada masalah yang dihadapi, dan seberapa cerewetnya Anda dalam hal-hal seperti cakupan batas kepercayaan Anda.
sumber