Pemahaman saya tentang pendekatan bootstrap didasarkan pada kerangka kerja Wasserman (hampir kata demi kata):
Membiarkan menjadi statistik ( adalah sampel awal yang diambil dari distribusi ). Misalkan kita ingin memperkirakan - varians dari diberikan .
Pendekatan bootstrap mengikuti dua langkah ini:
Memperkirakan dengan dimana adalah fungsi distribusi empiris.
Perkiraan menggunakan simulasi.
Apakah saya mengerti benar bahwa simulasi pada langkah 2 dapat diganti dengan perhitungan yang tepat, kecuali bahwa itu tidak layak untuk nilai praktis yang berguna dari ? Inilah pemikiran saya: tepatnya sama dengan integral . adalah fungsi langkah, dengan angka yang terbatas Langkah; jadi kita bisa mengabaikan semua poin kecuali menunjukkan di mana memiliki massa bukan nol. Jadi integralnya persis sama dengan jumlahketentuan Sekali melebihi 14, perhitungan langsung yang sederhana tidak mungkin.
Tapi semua yang kami coba lakukan adalah menghitung integral. Mengapa tidak mengganti simulasi bootstrap brute-force dengan salah satu algoritma numerik tradisional untuk mengambil integral? Bukankah itu menghasilkan presisi yang jauh lebih tinggi untuk waktu komputasi yang sama?
Bahkan sesuatu yang sederhana seperti memisahkan ruang sampel menjadi beberapa bagian (mungkin dengan volume yang lebih kecil di mana statistik sampel bervariasi lebih cepat), dan memperkirakan nilai statistik di setiap bagian dengan menggunakan titik tengah, tampaknya lebih baik daripada blind bootstrap.
Apa yang saya lewatkan?
Mungkin bootstrap bekerja dengan sangat baik dan sangat cepat sehingga tidak perlu melakukan hal yang lebih rumit? (Misalnya, jika kehilangan presisi pada langkah 1 jauh lebih besar daripada pada langkah 2, maka perbaikan pada langkah 2 agak tidak berguna.)
Simulasi yang paling sering digunakan dalam bootstrap untuk perhitungan numerik varians pada prinsipnya dapat digantikan oleh perhitungan yang tepat atau pendekatan alternatif integral. Namun, kita harus menyadari bahwa simulasi "brute-force" sebagai alternatif dari teknik integrasi numerik lainnya sebenarnya adalah ide yang bagus. Jawaban untuk pertanyaan "Bukankah itu menghasilkan presisi yang jauh lebih tinggi untuk waktu komputasi yang sama?" adalah tidak ada .
Tapi mengapa begitu? Masalahnya adalah bahwa integrasi numerik standar dalam dimensi tinggi berskala buruk dengan dimensi. Jika Anda ingin membagi ruang menjadi titik-titik grid biasa, katakan, denganr titik kisi di setiap koordinat, Anda berakhir dengan rn titik kotak total. Perkiraan yang dicapai dengan simulasi (dikenal sebagai integrasi Monte Carlo) dapat dipandang sebagai pilihan cerdas untuk evaluasi fungsi. Alih-alih menghabiskan waktu evaluasi grid, kami hanya mengevaluasi fungsi yang kami integrasikan pada titik-titik yang dipilih. Kesalahannya adalah, karena sifat acak dari titik-titik yang dipilih, acak, tetapi biasanya dapat dikontrol oleh teorema batas pusat.
Ada metode lain seperti integrasi quasi-Monte Carlo, yang hampir tidak saya ketahui, yang membuat evaluasi fungsi pintar berdasarkan angka quasi-random alih-alih angka pseudo-acak yang kami gunakan untuk integrasi Monte Carlo biasa.
sumber