Mengapa tidak melaporkan rata-rata distribusi bootstrap?

30

Ketika satu bootstrap parameter untuk mendapatkan kesalahan standar kita mendapatkan distribusi parameter. Mengapa kita tidak menggunakan rata-rata distribusi itu sebagai hasil atau perkiraan untuk parameter yang kita coba dapatkan? Bukankah seharusnya distribusi mendekati yang asli? Karena itu, kami akan mendapatkan estimasi nilai "nyata" yang baik? Namun kami melaporkan parameter asli yang kami dapatkan dari sampel kami. Mengapa demikian?

Terima kasih

Guillermo Perez
sumber

Jawaban:

24

Karena statistik bootstrap adalah satu abstraksi lebih jauh dari parameter populasi Anda. Anda memiliki parameter populasi Anda, statistik sampel Anda, dan hanya pada lapisan ketiga Anda memiliki bootstrap. Nilai rata-rata bootstrap bukan penaksir yang lebih baik untuk parameter populasi Anda. Itu hanyalah perkiraan.

Seperti , distribusi bootstrap yang berisi semua kemungkinan kombinasi bootstrap di sekitar statistik sampel sangat mirip dengan pusat statistik sampel di sekitar parameter populasi dalam kondisi yang sama. Makalah ini di sini merangkum hal-hal ini cukup baik dan itu salah satu yang paling mudah saya bisa menemukan. Untuk bukti lebih rinci ikuti makalah yang mereka rujuk. Contoh penting adalah Efron (1979) dan Singh (1981)n

Distribusi bootstrap dari mengikuti distribusi yang membuatnya berguna dalam estimasi kesalahan standar dari estimasi sampel, dalam konstruksi interval kepercayaan, dan dalam estimasi bias parameter. Itu tidak menjadikannya penaksir yang lebih baik untuk parameter populasi. Ini hanya menawarkan alternatif yang kadang-kadang lebih baik daripada distribusi parametrik biasa untuk distribusi statistik.θB-θ^θ^-θ

Cristian Dima
sumber
13

Ada setidaknya satu kasus di mana orang yang menggunakan mean dari distribusi bootstrap: mengantongi (kependekan bootstrap menggabungkan ).

Ide dasarnya adalah bahwa jika estimator Anda sangat sensitif terhadap gangguan dalam data (yaitu, estimator memiliki varians tinggi dan bias rendah), maka Anda dapat rata-rata di atas banyak sampel bootstrap untuk mengurangi jumlah overfitting contoh tertentu.

Halaman yang saya tautbawahi menunjukkan bahwa hal ini menimbulkan beberapa bias dalam estimasi Anda, itulah sebabnya rata-rata sampel sering kali lebih masuk akal daripada rata-rata sampel bootstrap Anda. Tetapi jika Anda memiliki sesuatu seperti pohon keputusan atau classifier tetangga terdekat yang dapat berubah secara radikal sebagai respons terhadap perubahan kecil dalam data, maka bias ini mungkin tidak menjadi masalah besar seperti overfitting.

David J. Harris
sumber
1
Saya tidak yakin saya mengerti pertanyaan Anda. Saya sebenarnya tidak menggunakan frasa "bias parameter." Saya juga tidak sepenuhnya yakin apa yang Anda maksud dengan versus dalam konteks ini. yθ
David J. Harris
Saya biasanya melihat bagging digunakan untuk mengurangi varians estimasi seseorang untuk respons (yaitu sensitivitasnya terhadap fluktuasi data). Model yang paling umum dikantongi (misalnya pohon) biasanya tidak memiliki parameter yang terdefinisi dengan baik yang akan dengan mudah dibandingkan di seluruh sampel bootstrap.
David J. Harris
Terima kasih, itulah yang saya pikirkan juga. Bagi saya mengantongi tampaknya tidak masuk akal untuk apa pun selain perkiraan respons, jadi itu terbatas dalam pengertian itu.
Momo
10

Perlu dicatat bahwa perbedaan antara rata-rata sampel yang di-bootstrap dan taksiran sampel kadang-kadang dapat digunakan sebagai perkiraan bias dalam memperkirakan parameter sebenarnya .θBθ^θ^θ

Jeromy Anglim
sumber