Dua cara menggunakan bootstrap untuk memperkirakan interval kepercayaan koefisien dalam regresi

21

Saya menerapkan model linier ke data saya:

ysaya=β0+β1xsaya+ϵsaya,ϵsayaN(0,σ2).

Saya ingin memperkirakan interval kepercayaan (CI) dari koefisien ( , β 1 ) menggunakan metode bootstrap. Ada dua cara agar saya dapat menerapkan metode bootstrap:β0β1

  1. Prediktor respons pasangan berpasangan: Secara acak sampel ulang pasangan , dan menerapkan regresi linier untuk setiap proses. Setelah m berjalan, kita memperoleh koleksi diperkirakan koefisien ^ β j , j = 1 , . . . m . Akhirnya, hitung kuantil ^ β j .ysaya-xsayamβj^,j=1,...mβj^

  2. Kesalahan sampel: Pertama menerapkan regresi linier pada data yang diamati asli, dari model ini kami memperoleh dan kesalahan ϵ i . Setelah itu, secara acak resample kesalahan ε * i dan menghitung data baru dengan ^ β o dan y * i = ^ β o x i + ε * i . Terapkan sekali lagi regresi linier. Setelah m berjalan, kami memperoleh koleksi perkiraan koefisien ^ β j , j = 1 ,βHai^ϵsayaϵsayaβHai^ysaya=βHai^xsaya+ϵsayam . Akhirnya, hitung kuantil ^ β j .βj^,j=1,...,mβj^

Pertanyaan saya adalah:

  • Bagaimana kedua metode ini berbeda?
  • Di bawah asumsi manakah dua metode ini memberikan hasil yang sama?
tiantianchen
sumber
7
Saya pribadi tidak akan menggunakan keduanya sebagai pendekatan default tetapi sebaliknya akan merekomendasikan interval kepercayaan bootstrap dasar. Lihat hal. 8 dari www.stat.cmu.edu/~cshalizi/402/lectures/08-bootstrap/lecture-08.pdf. Saya telah melakukan banyak simulasi untuk model logistik biner dan telah melihat cakupan interval kepercayaan yang lebih baik menggunakan bootstrap dasar daripada menggunakan bootstrap persentil atau BCa.
Frank Harrell
1
@ FrankHarrell harus jelas, dengan "dasar" Anda merujuk ke bootstrap non-parametrik?
ndoogan
3
(1) adalah interval kepercayaan nonparametrik bootstrap persentil, bukan bootstrap dasar. Perhatikan bahwa pengambilan sampel dari adalah bootstrap tanpa syarat, yang lebih bebas dari asumsi daripada bootstrap bersyarat yang membuat sampel residual. (x,y)
Frank Harrell
2
Saya benar-benar bukan ahli, tetapi sejauh yang saya mengerti, 1) sering disebut "case-resampling" sedangkan 2) disebut "residual resampling" atau "fix- " resampling. Pilihan dasar metode ini tidak menyiratkan metode bagaimana menghitung interval kepercayaan setelah prosedur. Saya mendapat info ini terutama dari tutorial John Fox . Sejauh yang saya lihat, setelah bootstrap, Anda dapat menghitung CI bootstrap dasar (misalnya dengan in ). Atau apakah saya melewatkan sesuatu di sini? xboot.ci(my.boot, type="basic")R
COOLSerdash
2
Ya, Anda bisa melakukan cluster bootstrap. Ini diimplementasikan dalam R rms validatedan calibratefungsi.
Frank Harrell

Jawaban:

9

Jika pasangan peramal respons telah diperoleh dari suatu populasi dengan sampel acak, aman untuk menggunakan case / random-x / skema resampling pertama Anda. Jika prediktor dikontrol untuk, atau nilai-nilai prediktor ditetapkan oleh eksperimen, Anda dapat mempertimbangkan menggunakan skema resampling residual / berbasis / tetap-x / your-second.

Bagaimana keduanya berbeda? Pengantar bootstrap dengan aplikasi dalam R oleh Davison dan Kounen memiliki diskusi yang berkaitan dengan pertanyaan ini (lihat hal.9). Lihat juga kode R dalam apendiks ini oleh John Fox , khususnya fungsi boot.huber pada hal.5 untuk skema random-x dan boot.huber. diperbaiki pada hal.10 untuk skema fixed-x. Sementara dalam catatan kuliah oleh Shalizi , kedua skema tersebut diterapkan pada kumpulan data / masalah yang berbeda, lampiran Fox mengilustrasikan betapa kecilnya perbedaan dari kedua skema tersebut.

Kapan keduanya dapat diharapkan untuk memberikan hasil yang hampir sama? Salah satu situasi adalah ketika model regresi ditentukan dengan benar, misalnya, tidak ada nonlinier yang tidak dimodelkan dan asumsi regresi yang biasa (misalnya, kesalahan awal, tidak ada outlier) terpenuhi. Lihat bab 21 buku Fox (di mana apendiks yang disebutkan di atas dengan kode R secara tidak langsung termasuk), khususnya diskusi di halaman 598 dan latihan 21.3. berjudul "Pengacakan acak versus tetap dalam regresi". Mengutip dari buku

By randomly reattaching resampled residuals to fitted values, the [fixed-x/model-based]
procedure implicitly assumes that the errors are identically distributed. If, for
example, the true errors have non-constant variance, then this property will not be  
reflected in the resampled residuals. Likewise, the unique impact of a high-leverage
outlier will be lost to the resampling.

Anda juga akan belajar dari diskusi itu mengapa fixed-x bootstrap secara implisit mengasumsikan bahwa bentuk fungsional dari model itu benar (walaupun tidak ada asumsi yang dibuat tentang bentuk distribusi kesalahan).

Lihat juga slide 12 ceramah ini untuk Society Of Actuaries di Irlandia oleh Derek Bain. Ini juga memiliki ilustrasi tentang apa yang harus dianggap "hasil yang sama":

The approach of re-sampling cases to generate pseudo data is the more usual form of   
bootstrapping. The approach is robust in that if an incorrect model is fitted an
appropriate measure of parameter meter uncertainty is still obtained. However re
sampling residuals is more efficient if the correct model has been fitted.

The graphs shows both approaches in estimating the variance of a 26 point data sample
mean and a 52 point sample mean. In the larger sample the two approaches are  
equivalent.
Hibernasi
sumber