Bootstrap: masalah overfitting

14

Misalkan seseorang melakukan apa yang disebut bootstrap non-parametrik dengan menggambar sampel ukuran masing-masing dari pengamatan asli dengan penggantian. Saya percaya prosedur ini setara dengan memperkirakan fungsi distribusi kumulatif oleh cdf empiris:n nBnn

http://en.wikipedia.org/wiki/Empirical_distribution_function

dan kemudian mendapatkan sampel bootstrap dengan mensimulasikan pengamatan dari estimasi cdf kali berturut-turut.BnB

Jika saya benar dalam hal ini, maka seseorang harus mengatasi masalah overfitting, karena cdf empiris memiliki tentang parameter N. Tentu saja, asimptotik itu menyatu dengan populasi cdf, tetapi bagaimana dengan sampel yang terbatas? Misalnya jika saya memberi tahu Anda bahwa saya memiliki 100 pengamatan dan saya akan memperkirakan cdf sebagai dengan dua parameter, Anda tidak akan khawatir. Namun, jika jumlah parameter naik hingga 100, sepertinya tidak masuk akal sama sekali.N(μ,σ2)

Demikian juga, ketika seseorang menggunakan regresi linier berganda standar, distribusi istilah kesalahan diperkirakan sebagai . Jika seseorang memutuskan untuk beralih ke bootstrap residu, ia harus menyadari bahwa sekarang ada sekitar n parameter yang digunakan hanya untuk menangani distribusi istilah kesalahan.N(0,σ2)n

Bisakah Anda mengarahkan saya ke beberapa sumber yang membahas masalah ini secara eksplisit, atau beri tahu saya mengapa ini bukan masalah jika Anda pikir saya salah.

James
sumber
Salah satu cara untuk melihat bootstrap "non-parametrik" ini adalah dengan mengubah asumsi parametrik normalitas menjadi "jumlah minat" pada beberapa populasi terbatas yang besar (misalnya rata-rata Sensus catatan). Bahkan, Anda dapat menunjukkan bahwa versi bootstrap ini didasarkan pada perkiraan "kemungkinan maksimum" dari model multinomial, dengan 1 kategori untuk setiap "tipe" yang berbeda dalam populasi.
probabilityislogic

Jawaban:

2

saya tidak sepenuhnya yakin saya mengerti pertanyaan Anda benar ... saya berasumsi Anda tertarik pada urutan konvergensi?

karena cdf empiris memiliki tentang parameter N. Tentu saja, asimtotik itu konvergen ke populasi cdf, tetapi bagaimana dengan sampel yang terbatas?

Sudahkah Anda membaca dasar-dasar teori bootstrap? Masalahnya adalah ia menjadi sangat liar (secara matematis) dengan cukup cepat.

Bagaimanapun, saya sarankan untuk melihat

van der Vaart "Statistik Asimptotik" bab 23.

Hall "Bootstrap dan Edgeworth expansions" (panjang tapi ringkas dan kurang handwaving daripada yang saya katakan van der Vaart)

untuk dasar-dasarnya.

Chernick "Metode Bootstrap" lebih ditujukan untuk pengguna daripada ahli matematika tetapi memiliki bagian tentang "di mana bootstrap gagal".

Efron / Tibshirani klasik memiliki sedikit alasan mengapa bootstrap benar-benar berfungsi ...

BootstrapBill
sumber
4

N(μ,σ2)

Secara intuitif, bootstrap dari sampel terbatas meremehkan ekor berat dari distribusi yang mendasarinya. Itu jelas, karena sampel hingga memiliki rentang terbatas, bahkan jika rentang distribusi sebenarnya tidak terbatas atau, bahkan lebih buruk, memiliki ekor yang berat. Jadi perilaku statistik bootstrap tidak akan pernah "liar" seperti statistik aslinya. Begitu mirip dengan menghindari overfitting karena terlalu banyak parameter dalam regresi (parametrik), kita bisa menghindari overfitting dengan menggunakan distribusi normal beberapa parameter.

Edit menanggapi komentar: Ingat Anda tidak perlu bootstrap untuk memperkirakan cdf. Anda biasanya menggunakan bootstrap untuk mendapatkan distribusi (dalam arti luas termasuk kuantil, momen, apa pun yang diperlukan) dari beberapa statistik. Jadi Anda tidak perlu memiliki masalah overfitting (dalam hal "estimasi karena data terbatas saya terlihat terlalu bagus dibandingkan dengan apa yang harus saya lihat dengan distribusi liar yang sebenarnya"). Tapi ternyata (oleh makalah yang dikutip dan oleh komentar Frank Harrel di bawah), mendapatkan masalah overfitting terkait dengan masalah dengan estimasi parametrik dari statistik yang sama.

Jadi saat pertanyaan Anda tersirat, bootstrap bukan obat mujarab untuk masalah dengan estimasi parametrik. Harapan bahwa bootstrap akan membantu masalah parameter dengan mengendalikan seluruh distribusi adalah palsu.

Horst Grünbusch
sumber
1
Masih belum jelas bagaimana bootstrap berhasil bekerja mengingat jumlah parameter efektif yang terlibat dalam bootstrap hampir sama dengan ukuran sampel. Saya punya satu tebakan: tujuan akhir bootstrap bukan untuk memperkirakan seluruh distribusi, tetapi untuk memperkirakan 1-2 statistik dari distribusi. Oleh karena itu, meskipun cdf empiris yang tertanam dalam bootstrap terlalu banyak dilengkapi, statistik perkiraan 1-2 akhirnya baik-baik saja. Apakah saya benar?
James
4
Jumlah parameter efektif tidak sama dengan ukuran sampel. Varian dari fungsi distribusi kumulatif empiris hampir sama dengan varian fit parametrik untuk distribusi ketika distribusi memiliki 4 parameter yang tidak diketahui untuk diperkirakan. Salah satu alasannya adalah bahwa estimasi CDF empiris dipaksa dalam urutan menaik.
Frank Harrell
Poin yang bagus. Bisakah Anda memberikan referensi?
James
Saya berharap saya punya satu. Saya telah menunjukkan ini di masa lalu oleh simulasi Monte Carlo.
Frank Harrell
L.2F^-FF^(x)-F(x)
0

Salah satu sumber intuisi mungkin untuk membandingkan tingkat konvergensi untuk CDF parametrik vs ECDF, untuk data iid.

n-1/2

n-1/2σμ

Jadi dalam arti tertentu, tingkat di mana Anda perlu mendapatkan lebih banyak sampel adalah sama, apakah Anda memperkirakan CDF menggunakan CDF empiris atau apakah Anda memperkirakan parameter secara langsung menggunakan penduga jenis-rata-rata sampel. Ini mungkin membantu membenarkan komentar Frank Harrell bahwa "Jumlah parameter efektif tidak sama dengan ukuran sampel."

Tentu saja, itu bukan keseluruhan cerita. Meskipun tarifnya tidak berbeda, konstanta tidak. Dan ada jauh lebih banyak untuk bootstrap nonparametrik daripada ECDF --- Anda masih perlu melakukan hal-hal dengan ECDF setelah Anda memperkirakannya.

civilstat
sumber