Bootstrap vs integrasi numerik

8

Pemahaman saya tentang pendekatan bootstrap didasarkan pada kerangka kerja Wasserman (hampir kata demi kata):

Membiarkan Tn=g(X1,...,Xn) menjadi statistik (Xi adalah sampel awal yang diambil dari distribusi F). Misalkan kita ingin memperkirakanVF(Tn) - varians dari Tn diberikan F.

Pendekatan bootstrap mengikuti dua langkah ini:

  1. Memperkirakan VF(Tn) dengan VF^(Tn)dimana F^ adalah fungsi distribusi empiris.

  2. Perkiraan VF^(Tn) menggunakan simulasi.

Apakah saya mengerti benar bahwa simulasi pada langkah 2 dapat diganti dengan perhitungan yang tepat, kecuali bahwa itu tidak layak untuk nilai praktis yang berguna dari n? Inilah pemikiran saya:VF^ tepatnya sama dengan integral Tn(X1,...,Xn)dF^(X1)dF^(X2)...dF^(Xn). F^ adalah fungsi langkah, dengan angka yang terbatas nLangkah; jadi kita bisa mengabaikan semua poin kecualin menunjukkan di mana dF^(x)memiliki massa bukan nol. Jadi integralnya persis sama dengan jumlahnnketentuan Sekalin melebihi 14, perhitungan langsung yang sederhana tidak mungkin.

Tapi semua yang kami coba lakukan adalah menghitung integral. Mengapa tidak mengganti simulasi bootstrap brute-force dengan salah satu algoritma numerik tradisional untuk mengambil integral? Bukankah itu menghasilkan presisi yang jauh lebih tinggi untuk waktu komputasi yang sama?

Bahkan sesuatu yang sederhana seperti memisahkan ruang sampel menjadi beberapa bagian (mungkin dengan volume yang lebih kecil di mana statistik sampel bervariasi lebih cepat), dan memperkirakan nilai statistik di setiap bagian dengan menggunakan titik tengah, tampaknya lebih baik daripada blind bootstrap.

Apa yang saya lewatkan?

Mungkin bootstrap bekerja dengan sangat baik dan sangat cepat sehingga tidak perlu melakukan hal yang lebih rumit? (Misalnya, jika kehilangan presisi pada langkah 1 jauh lebih besar daripada pada langkah 2, maka perbaikan pada langkah 2 agak tidak berguna.)

maks
sumber

Jawaban:

6

Bootstrap bekerja dengan sangat baik. Jika Anda ingin memperkirakan mean, varians, dan beberapa kuantil tidak terlalu ekstrim dari distribusi beberapa dimensi rendahθ^(Y), beberapa ratus hingga beberapa ribu sampel ulang akan membuat kesalahan Monte Carlo diabaikan, untuk banyak masalah realistis. Sebagai produk sampingan yang bahagia, itu juga memberi Anda sampelθ^(Y), yang dapat digunakan untuk prosedur diagnostik, jika diinginkan, dan tidak terlalu sulit untuk mendapatkan ukuran yang dapat diterima tentang seberapa besar kesalahan Monte Carlo sebenarnya.

Memasukkan model regresi misalnya seribu kali lipat (hari ini) bukan masalah besar, baik dalam hal waktu CPU atau upaya pengkodean.

Sebaliknya, integrasi numerik (tidak termasuk metode Monte Carlo) mungkin sulit dikodekan - Anda harus memutuskan bagaimana membagi ruang sampel, misalnya, yang merupakan tugas yang tidak sepele. Metode-metode ini juga tidak memberikan diagnosa, dan akurasi yang mereka perkirakan integral sebenarnya sangat sulit untuk dinilai.

Untuk melakukan sebagian besar dari apa yang dilakukan bootstrap, tetapi lebih cepat, lihat Generalized Method of Moments - untuk kesimpulan berdasarkan model regresi (dan banyak lagi) Anda dapat menganggapnya sebagai perkiraan cepat dan akurat terhadap apa yang bootstrap non-parametrik akan memberi.

tamu
sumber
Terima kasih. Karena langkah 2 ditangani dengan cukup baik, saya ingin tahu, dapatkah GMM atau teknik lainnya mengatasi ketidaktepatan pada langkah 1 (di mana kami memperkirakan varian dari distribusi yang sebenarnya dengan varian dari distribusi empiris)?
Maks.
"Plain vanilla" GMM menggunakan pendekatan yang sangat langsung ke kovarian sejati. Penggunaan perkiraan tingkat tinggi (pendekatan saddlepoint dan sejenisnya) dapat digunakan, tetapi Anda harus membuat kode sendiri, dan mungkin membuat asumsi sedikit lebih kuat dari GMM biasa untuk memastikan Anda mendapatkan perkiraan "terbaik".
tamu
3

Simulasi yang paling sering digunakan dalam bootstrap untuk perhitungan numerik varians pada prinsipnya dapat digantikan oleh perhitungan yang tepat atau pendekatan alternatif integral. Namun, kita harus menyadari bahwa simulasi "brute-force" sebagai alternatif dari teknik integrasi numerik lainnya sebenarnya adalah ide yang bagus. Jawaban untuk pertanyaan "Bukankah itu menghasilkan presisi yang jauh lebih tinggi untuk waktu komputasi yang sama?" adalah tidak ada .

Tapi mengapa begitu? Masalahnya adalah bahwa integrasi numerik standar dalam dimensi tinggi berskala buruk dengan dimensi. Jika Anda ingin membagi ruang menjadi titik-titik grid biasa, katakan, denganr titik kisi di setiap koordinat, Anda berakhir dengan rntitik kotak total. Perkiraan yang dicapai dengan simulasi (dikenal sebagai integrasi Monte Carlo) dapat dipandang sebagai pilihan cerdas untuk evaluasi fungsi. Alih-alih menghabiskan waktu evaluasi grid, kami hanya mengevaluasi fungsi yang kami integrasikan pada titik-titik yang dipilih. Kesalahannya adalah, karena sifat acak dari titik-titik yang dipilih, acak, tetapi biasanya dapat dikontrol oleh teorema batas pusat.

Ada metode lain seperti integrasi quasi-Monte Carlo, yang hampir tidak saya ketahui, yang membuat evaluasi fungsi pintar berdasarkan angka quasi-random alih-alih angka pseudo-acak yang kami gunakan untuk integrasi Monte Carlo biasa.

NRH
sumber