Bootstrap: estimasi berada di luar interval kepercayaan

10

Saya melakukan bootstrap dengan model campuran (beberapa variabel dengan interaksi dan satu variabel acak). Saya mendapat hasil ini (hanya sebagian):

> boot_out

ORDINARY NONPARAMETRIC BOOTSTRAP

Call:
boot(data = a001a1, statistic = bootReg, R = 1000)

Bootstrap Statistics :
          original        bias     std. error
t1*   4.887383e+01 -1.677061e+00 4.362948e-01
t2*   3.066825e+01  1.264024e+00 5.328387e-01
t3*   8.105422e+01  2.368599e+00 6.789091e-01
t4*   1.620562e+02  4.908711e+00 1.779522e+00
......

Sekarang, saya ingin mendapatkan interval kepercayaan untuk intersep:

> boot.ci(boot_out,type=c("norm","basic","perc"), index=1)
BOOTSTRAP CONFIDENCE INTERVAL CALCULATIONS
Based on 1000 bootstrap replicates

CALL : 
boot.ci(boot.out = boot_out, type = c("norm", "basic", 
"perc"), index = 1)

Intervals : 
Level      Normal              Basic              Percentile     
95%   (49.70, 51.41 )   (49.70, 51.41 )   (46.34, 48.05 )  
Calculations and Intervals on Original Scale

Perkiraan bias yang diperbaiki adalah:

48.873 -1.677
1 47.196

Masalah yang saya miliki adalah bahwa CI normal dan dasar di luar perkiraan (asli dan dikoreksi). Saya hanya ingin tahu bagaimana cara mengatasinya.

Pembaruan 1:
Berikut adalah pertanyaan serupa dengan banyak tanggapan.

giordano
sumber
2
Hanya sebuah komentar: Efron & Tibshirani (1993) dalam buku klasik ini lebih suka menentang koreksi bias dengan mengatakan itu adalah praktik "berbahaya" dan "bermasalah" yang dapat menyebabkan peningkatan kesalahan standar.
Tim
@Tim Terima kasih atas komentar Anda. Saya akan melihat buku itu. Mungkin, solusinya adalah dengan menggunakan estimasi dan dan bootstrap se * untuk menghitung interval kepercayaan. Dalam kasus saya, bias hanya memengaruhi estimasi sedikit.
giordano

Jawaban:

1

Kesulitan yang Anda hadapi adalah dari matematika tersirat. Pusat penaksir lokasi, atau penaksir interval, dapat dianggap sebagai minimalisasi fungsi biaya pada distribusi. Rata-rata sampel di atas Gaussian meminimalkan kerugian kuadratik, sedangkan median meminimalkan fungsi kehilangan linear absolut atas Gaussian. Meskipun dalam populasi mereka berada pada titik yang sama, mereka ditemukan menggunakan fungsi biaya yang berbeda.

Kami memberi Anda algoritme dan mengatakan "lakukan ini," tetapi sebelum algoritme itu dikembangkan seseorang memecahkan masalah optimisasi.

Anda telah menerapkan empat fungsi biaya yang berbeda memberi Anda tiga interval dan penaksir titik. Karena fungsi biaya berbeda, mereka memberikan Anda poin dan interval yang berbeda. Tidak ada yang bisa dilakukan tentang hal itu kecuali menyatukan metodologi secara manual.

Anda perlu menemukan makalah yang mendasarinya dan melihat kode yang mendasari untuk memahami yang mana memetakan untuk jenis masalah apa.

Maaf mengatakan ini, tetapi Anda dikhianati oleh perangkat lunak. Itu melakukan tugasnya, dan rata-rata ini bekerja dengan baik, tetapi Anda mendapat sampel di mana perangkat lunak tidak akan berfungsi. Atau, lebih tepatnya, ia bekerja dengan sempurna dan Anda harus benar-benar bekerja mundur melalui literatur untuk menentukan apa yang sebenarnya dilakukannya.

Dave Harris
sumber
Terima kasih untuk Ini melakukan tugasnya, dan rata-rata ini bekerja dengan baik, tetapi Anda mendapat sampel di mana perangkat lunak tidak akan bekerja dan wawasan lainnya. Memang, sampel aneh itu sebabnya saya ingin menggunakan Bootsstrap untuk menghitung CI. Jelas, metode ini tampaknya tidak sesederhana seperti yang terlihat.
giordano