Saya menerapkan model linier ke data saya:
Saya ingin memperkirakan interval kepercayaan (CI) dari koefisien ( , β 1 ) menggunakan metode bootstrap. Ada dua cara agar saya dapat menerapkan metode bootstrap:
Prediktor respons pasangan berpasangan: Secara acak sampel ulang pasangan , dan menerapkan regresi linier untuk setiap proses. Setelah m berjalan, kita memperoleh koleksi diperkirakan koefisien ^ β j , j = 1 , . . . m . Akhirnya, hitung kuantil ^ β j .
Kesalahan sampel: Pertama menerapkan regresi linier pada data yang diamati asli, dari model ini kami memperoleh dan kesalahan ϵ i . Setelah itu, secara acak resample kesalahan ε * i dan menghitung data baru dengan ^ β o dan y * i = ^ β o x i + ε * i . Terapkan sekali lagi regresi linier. Setelah m berjalan, kami memperoleh koleksi perkiraan koefisien ^ β j , j = 1 , . Akhirnya, hitung kuantil ^ β j .
Pertanyaan saya adalah:
- Bagaimana kedua metode ini berbeda?
- Di bawah asumsi manakah dua metode ini memberikan hasil yang sama?
sumber
boot.ci(my.boot, type="basic")
R
rms
validate
dancalibrate
fungsi.Jawaban:
Jika pasangan peramal respons telah diperoleh dari suatu populasi dengan sampel acak, aman untuk menggunakan case / random-x / skema resampling pertama Anda. Jika prediktor dikontrol untuk, atau nilai-nilai prediktor ditetapkan oleh eksperimen, Anda dapat mempertimbangkan menggunakan skema resampling residual / berbasis / tetap-x / your-second.
Bagaimana keduanya berbeda? Pengantar bootstrap dengan aplikasi dalam R oleh Davison dan Kounen memiliki diskusi yang berkaitan dengan pertanyaan ini (lihat hal.9). Lihat juga kode R dalam apendiks ini oleh John Fox , khususnya fungsi boot.huber pada hal.5 untuk skema random-x dan boot.huber. diperbaiki pada hal.10 untuk skema fixed-x. Sementara dalam catatan kuliah oleh Shalizi , kedua skema tersebut diterapkan pada kumpulan data / masalah yang berbeda, lampiran Fox mengilustrasikan betapa kecilnya perbedaan dari kedua skema tersebut.
Kapan keduanya dapat diharapkan untuk memberikan hasil yang hampir sama? Salah satu situasi adalah ketika model regresi ditentukan dengan benar, misalnya, tidak ada nonlinier yang tidak dimodelkan dan asumsi regresi yang biasa (misalnya, kesalahan awal, tidak ada outlier) terpenuhi. Lihat bab 21 buku Fox (di mana apendiks yang disebutkan di atas dengan kode R secara tidak langsung termasuk), khususnya diskusi di halaman 598 dan latihan 21.3. berjudul "Pengacakan acak versus tetap dalam regresi". Mengutip dari buku
Anda juga akan belajar dari diskusi itu mengapa fixed-x bootstrap secara implisit mengasumsikan bahwa bentuk fungsional dari model itu benar (walaupun tidak ada asumsi yang dibuat tentang bentuk distribusi kesalahan).
Lihat juga slide 12 ceramah ini untuk Society Of Actuaries di Irlandia oleh Derek Bain. Ini juga memiliki ilustrasi tentang apa yang harus dianggap "hasil yang sama":
sumber