Misalkan seseorang melakukan apa yang disebut bootstrap non-parametrik dengan menggambar sampel ukuran masing-masing dari pengamatan asli dengan penggantian. Saya percaya prosedur ini setara dengan memperkirakan fungsi distribusi kumulatif oleh cdf empiris:n n
http://en.wikipedia.org/wiki/Empirical_distribution_function
dan kemudian mendapatkan sampel bootstrap dengan mensimulasikan pengamatan dari estimasi cdf kali berturut-turut.B
Jika saya benar dalam hal ini, maka seseorang harus mengatasi masalah overfitting, karena cdf empiris memiliki tentang parameter N. Tentu saja, asimptotik itu menyatu dengan populasi cdf, tetapi bagaimana dengan sampel yang terbatas? Misalnya jika saya memberi tahu Anda bahwa saya memiliki 100 pengamatan dan saya akan memperkirakan cdf sebagai dengan dua parameter, Anda tidak akan khawatir. Namun, jika jumlah parameter naik hingga 100, sepertinya tidak masuk akal sama sekali.
Demikian juga, ketika seseorang menggunakan regresi linier berganda standar, distribusi istilah kesalahan diperkirakan sebagai . Jika seseorang memutuskan untuk beralih ke bootstrap residu, ia harus menyadari bahwa sekarang ada sekitar n parameter yang digunakan hanya untuk menangani distribusi istilah kesalahan.
Bisakah Anda mengarahkan saya ke beberapa sumber yang membahas masalah ini secara eksplisit, atau beri tahu saya mengapa ini bukan masalah jika Anda pikir saya salah.
Jawaban:
saya tidak sepenuhnya yakin saya mengerti pertanyaan Anda benar ... saya berasumsi Anda tertarik pada urutan konvergensi?
Sudahkah Anda membaca dasar-dasar teori bootstrap? Masalahnya adalah ia menjadi sangat liar (secara matematis) dengan cukup cepat.
Bagaimanapun, saya sarankan untuk melihat
van der Vaart "Statistik Asimptotik" bab 23.
Hall "Bootstrap dan Edgeworth expansions" (panjang tapi ringkas dan kurang handwaving daripada yang saya katakan van der Vaart)
untuk dasar-dasarnya.
Chernick "Metode Bootstrap" lebih ditujukan untuk pengguna daripada ahli matematika tetapi memiliki bagian tentang "di mana bootstrap gagal".
Efron / Tibshirani klasik memiliki sedikit alasan mengapa bootstrap benar-benar berfungsi ...
sumber
Secara intuitif, bootstrap dari sampel terbatas meremehkan ekor berat dari distribusi yang mendasarinya. Itu jelas, karena sampel hingga memiliki rentang terbatas, bahkan jika rentang distribusi sebenarnya tidak terbatas atau, bahkan lebih buruk, memiliki ekor yang berat. Jadi perilaku statistik bootstrap tidak akan pernah "liar" seperti statistik aslinya. Begitu mirip dengan menghindari overfitting karena terlalu banyak parameter dalam regresi (parametrik), kita bisa menghindari overfitting dengan menggunakan distribusi normal beberapa parameter.
Edit menanggapi komentar: Ingat Anda tidak perlu bootstrap untuk memperkirakan cdf. Anda biasanya menggunakan bootstrap untuk mendapatkan distribusi (dalam arti luas termasuk kuantil, momen, apa pun yang diperlukan) dari beberapa statistik. Jadi Anda tidak perlu memiliki masalah overfitting (dalam hal "estimasi karena data terbatas saya terlihat terlalu bagus dibandingkan dengan apa yang harus saya lihat dengan distribusi liar yang sebenarnya"). Tapi ternyata (oleh makalah yang dikutip dan oleh komentar Frank Harrel di bawah), mendapatkan masalah overfitting terkait dengan masalah dengan estimasi parametrik dari statistik yang sama.
Jadi saat pertanyaan Anda tersirat, bootstrap bukan obat mujarab untuk masalah dengan estimasi parametrik. Harapan bahwa bootstrap akan membantu masalah parameter dengan mengendalikan seluruh distribusi adalah palsu.
sumber
Salah satu sumber intuisi mungkin untuk membandingkan tingkat konvergensi untuk CDF parametrik vs ECDF, untuk data iid.
Jadi dalam arti tertentu, tingkat di mana Anda perlu mendapatkan lebih banyak sampel adalah sama, apakah Anda memperkirakan CDF menggunakan CDF empiris atau apakah Anda memperkirakan parameter secara langsung menggunakan penduga jenis-rata-rata sampel. Ini mungkin membantu membenarkan komentar Frank Harrell bahwa "Jumlah parameter efektif tidak sama dengan ukuran sampel."
Tentu saja, itu bukan keseluruhan cerita. Meskipun tarifnya tidak berbeda, konstanta tidak. Dan ada jauh lebih banyak untuk bootstrap nonparametrik daripada ECDF --- Anda masih perlu melakukan hal-hal dengan ECDF setelah Anda memperkirakannya.
sumber