Saya ingin melakukan demonstrasi kelas di mana saya membandingkan interval-t dengan interval bootstrap dan menghitung probabilitas cakupan keduanya. Saya ingin data berasal dari distribusi miring jadi saya memilih untuk menghasilkan data sebagai exp(rnorm(10, 0, 2)) + 1
, sampel ukuran 10 dari lognormal bergeser. Saya menulis sebuah skrip untuk menggambar 1000 sampel dan, untuk setiap sampel, menghitung interval t 95% dan interval persentil bootstrap 95% berdasarkan 1000 ulangan.
Ketika saya menjalankan skrip, kedua metode memberikan interval yang sangat mirip dan keduanya memiliki probabilitas cakupan 50-60%. Saya terkejut karena saya pikir interval bootstrap akan lebih baik.
Pertanyaan saya adalah, sudahkah saya
- melakukan kesalahan dalam kode?
- melakukan kesalahan dalam menghitung interval?
- melakukan kesalahan dengan mengharapkan interval bootstrap untuk memiliki properti cakupan yang lebih baik?
Juga, adakah cara untuk membangun CI yang lebih andal dalam situasi ini?
tCI.total <- 0
bootCI.total <- 0
m <- 10 # sample size
true.mean <- exp(2) + 1
for (i in 1:1000){
samp <- exp(rnorm(m,0,2)) + 1
tCI <- mean(samp) + c(1,-1)*qt(0.025,df=9)*sd(samp)/sqrt(10)
boot.means <- rep(0,1000)
for (j in 1:1000) boot.means[j] <- mean(sample(samp,m,replace=T))
bootCI <- sort(boot.means)[c(0.025*length(boot.means), 0.975*length(boot.means))]
if (true.mean > min(tCI) & true.mean < max(tCI)) tCI.total <- tCI.total + 1
if (true.mean > min(bootCI) & true.mean < max(bootCI)) bootCI.total <- bootCI.total + 1
}
tCI.total/1000 # estimate of t interval coverage probability
bootCI.total/1000 # estimate of bootstrap interval coverage probability
sumber
Jawaban:
Diagnosis dan pemulihan bootstrap oleh Canto, Davison, Hinkley & Ventura (2006) tampaknya menjadi titik tolak yang logis. Mereka membahas berbagai cara bootstrap dapat rusak dan - yang lebih penting di sini - menawarkan diagnosa dan kemungkinan perbaikan:
Saya tidak melihat masalah dengan 1, 2 dan 4 dalam situasi ini. Mari kita lihat 3. Seperti yang dicatat oleh @Ben Ogorek (walaupun saya setuju dengan @Glen_b bahwa diskusi normalitas mungkin merupakan herring merah), validitas bootstrap tergantung pada pivotality statistik yang kami minati.
Bagian 4 dalam Canty et al. menyarankan resampling-dalam-sampel untuk mendapatkan ukuran bias dan varians untuk estimasi parameter dalam setiap bootstrap . Berikut adalah kode untuk mereplikasi formula dari hal. 15 artikel:
Perhatikan skala log - tanpa log, ini bahkan lebih mencolok. Kami melihat dengan baik bagaimana varians estimasi rata-rata bootstrap naik dengan rata-rata sampel bootstrap. Bagi saya ini kelihatannya cukup sebagai senjata merokok untuk menyalahkan nonpivotality sebagai penyebab rendahnya interval kepercayaan.
Namun, saya akan dengan senang hati mengakui bahwa seseorang dapat menindaklanjuti dengan banyak cara. Sebagai contoh, kita dapat melihat bagaimana apakah interval kepercayaan dari replikasi bootstrap tertentu termasuk rata-rata sebenarnya tergantung pada rata-rata replikasi tertentu.
Adapun solusi, Canty et al. membahas transformasi, dan logaritma muncul di sini (misalnya, bootstrap dan membangun interval kepercayaan bukan untuk rata-rata, tetapi untuk rata-rata data yang dicatat), tetapi saya tidak bisa membuatnya bekerja.
Canty et al. lanjutkan untuk membahas bagaimana seseorang dapat mengurangi jumlah bootstrap dalam dan kebisingan yang tersisa dengan melakukan sampling penting dan memuluskan serta menambahkan pita kepercayaan diri ke plot pivot.
Ini mungkin proyek tesis yang menyenangkan untuk siswa yang cerdas. Saya menghargai setiap petunjuk tentang kesalahan saya, serta literatur lainnya. Dan saya akan dengan bebas menambahkan
diagnostic
tag ke pertanyaan ini.sumber
Lalu saya berpikir sedikit tentang seluruh pengaturan. Dengan hanya 10 pengamatan dan distribusi yang sangat miring, bukankah pada dasarnya tidak mungkin untuk memperkirakan secara nonparametrik rata-rata apalagi membangun interval kepercayaan dengan cakupan yang tepat?
sumber
Perhitungannya benar, saya mengecek ulang dengan paket boot yang terkenal . Selain itu saya menambahkan BCa-interval (oleh Efron), versi bias-diperbaiki dari interval bootstrap persentil:
Saya menganggap intervalnya akan jauh lebih baik jika ukuran sampel asli lebih besar dari 10, katakanlah 20 atau 50.
Selain itu metode bootstrap-t biasanya mengarah ke hasil yang lebih baik untuk statistik miring. Namun itu membutuhkan loop bersarang dan karenanya 20+ kali lebih banyak waktu komputasi.
Untuk pengujian hipotesis juga sangat penting bahwa cakupan 1-sisi baik. Jadi hanya melihat cakupan 2 sisi seringkali bisa menyesatkan.
sumber
Saya juga bingung tentang hal ini, dan saya menghabiskan banyak waktu pada kertas DiCiccio dan Efron 1996 , Interval Bootstrap Confidence Interval, tanpa banyak menunjukkannya.
Sebenarnya membuat saya berpikir kurang bootstrap sebagai metode tujuan umum. Dulu saya menganggapnya sebagai sesuatu yang akan menarik Anda keluar dari kemacetan ketika Anda benar-benar terjebak. Tapi saya telah belajar rahasia kecilnya yang kotor: interval kepercayaan bootstrap semuanya didasarkan pada normalitas dalam beberapa hal. Izinkan saya menjelaskan.
Ketika Anda berpikir tentang apa yang membenarkan persentil dari distribusi normal yang terkait dengan interval kepercayaan, itu sepenuhnya didasarkan pada kuantitas penting yang nyaman ini. Untuk distribusi sewenang-wenang, tidak ada hubungan teoritis antara persentil distribusi sampel dan interval kepercayaan , dan mengambil proporsi mentah dari distribusi sampel bootstrap tidak memotongnya.
Jadi interval BCa Efron (bias dikoreksi) menggunakan transformasi untuk mendapatkan perkiraan normalitas dan metode bootstrap-t bergantung pada statistik t yang dihasilkan yang kira-kira penting. Sekarang bootstrap dapat memperkirakan kapan saja, dan Anda selalu dapat mengasumsikan normalitas dan menggunakan standar +/- 2 * SE. Tetapi mengingat semua pekerjaan yang dilakukan menjadi non-parametrik dengan bootstrap, sepertinya tidak adil, bukan?
sumber
Lihat artikel Tim Hesterberg di The American Statistician di http://www.timhesterberg.net/bootstrap#TOC-Apa-Teachers-Should-Know-about-the-Bootstrap:-Resampling-in-the-Undergraduate-Statistics-Curriculum .
Pada dasarnya, interval persentil bootstrap tidak memiliki probabilitas cakupan yang kuat untuk data miring kecuali n besar.
sumber