Entri Wikipedia tentang Bootstrapping sebenarnya sangat bagus:
http://en.wikipedia.org/wiki/Bootstrapping_%28statistics%29
Alasan paling umum bootstrap diterapkan adalah ketika bentuk distribusi yang mendasari dari mana sampel diambil tidak diketahui. Secara tradisional ahli statistik mengasumsikan distribusi normal (untuk alasan yang sangat baik terkait dengan teorema batas pusat), tetapi statistik (seperti standar deviasi, interval kepercayaan, perhitungan daya dll.) Yang diperkirakan melalui teori distribusi normal hanya benar-benar valid jika distribusi populasi yang mendasarinya adalah normal.
Dengan berulang kali sampel ulang sampel itu sendiri, bootstrap memungkinkan estimasi yang independen terhadap distribusi. Secara tradisional setiap "resample" dari sampel asli secara acak memilih jumlah pengamatan yang sama seperti pada sampel asli. Namun ini dipilih dengan penggantian. Jika sampel memiliki pengamatan N, setiap bootstrap resample akan memiliki pengamatan N, dengan banyak sampel asli diulang dan banyak yang dikeluarkan.
Parameter yang diminati (mis. Rasio odds dll) kemudian dapat diperkirakan dari setiap sampel yang di-bootstrap. Mengulangi bootstrap mengatakan 1000 kali memungkinkan perkiraan "median" dan interval kepercayaan 95% pada statistik (misalnya rasio odds) dengan memilih persentil ke 2.5, 50 dan 97.5.
Wiki saat bootstrap memberikan deskripsi berikut:
Saya akan memberikan detail lebih lanjut jika Anda dapat mengklarifikasi bagian mana dari deskripsi di atas yang tidak Anda mengerti.
sumber
Saya suka memikirkannya sebagai berikut: Jika Anda memperoleh kumpulan data sampel acak dari suatu populasi, maka agaknya sampel tersebut akan memiliki karakteristik yang kira-kira sama dengan populasi sumber. Jadi, jika Anda tertarik untuk mendapatkan interval kepercayaan pada fitur tertentu dari distribusi, kemiringannya misalnya, Anda dapat memperlakukan sampel sebagai populasi pseudo dari mana Anda dapat memperoleh banyak set sampel pseudo acak, menghitung nilai fitur yang menarik di masing-masing. Asumsi bahwa sampel asli kira-kira sesuai dengan populasi juga berarti bahwa Anda dapat memperoleh sampel semu dengan mengambil sampel dari populasi semu "dengan penggantian" (mis. Anda mengambil sampel nilai, mencatatnya, lalu memasukkannya kembali, sehingga setiap nilai memiliki kesempatan diamati beberapa kali.).
sumber
Bootstrap pada dasarnya adalah simulasi percobaan berulang; katakanlah Anda memiliki sebuah kotak dengan bola yang ingin mendapatkan ukuran rata-rata bola - jadi Anda menggambar beberapa di antaranya, mengukur dan mengambil rata-rata. Sekarang Anda ingin mengulanginya untuk mendapatkan distribusi, misalnya untuk mendapatkan standar deviasi - tetapi Anda menemukan seseorang mencuri kotak itu.
Apa yang dapat dilakukan sekarang adalah menggunakan apa yang Anda miliki - serangkaian pengukuran ini. Idenya adalah untuk menempatkan bola ke kotak baru dan mensimulasikan percobaan asli dengan menggambar jumlah bola yang sama dengan penggantian - keduanya memiliki ukuran sampel yang sama dan beberapa variabilitas. Sekarang ini dapat direplikasi berkali-kali untuk mendapatkan serangkaian cara yang akhirnya dapat digunakan untuk memperkirakan distribusi rata-rata.
sumber
sumber