Saya belajar tentang bootstrap sebagai cara memperkirakan varians statistik sampel. Saya punya satu keraguan mendasar.
Mengutip dari http://web.stanford.edu/class/psych252/tutorials/doBootstrapPrimer.pdf :
• Berapa banyak pengamatan yang harus kita sampel ulang? Saran yang baik adalah ukuran sampel asli.
Bagaimana kita bisa membuat sampel sebanyak pengamatan seperti pada sampel asli?
Jika saya memiliki ukuran sampel 100, dan saya mencoba memperkirakan varians dari rata-rata. Bagaimana saya bisa mendapatkan beberapa sampel bootstrap ukuran 100 dari total ukuran sampel 100? Hanya 1 sampel bootstrap yang mungkin dalam hal ini yang setara dengan sampel asli, kan?
Saya jelas salah paham tentang sesuatu yang sangat mendasar. Saya memahami bahwa jumlah dari yang ideal sampel bootstrap selalu terbatas, dan untuk menentukan jumlah sampel bootstrap diperlukan untuk data saya saya harus tes untuk konvergensi menjaga presisi yang diperlukan saya dalam pikiran.
Tapi saya benar-benar bingung tentang apa yang seharusnya menjadi ukuran masing- masing sampel bootstrap individu .
sumber
Jawaban:
Bootstrap dilakukan dengan pengambilan sampel dengan penggantian . Tampaknya istilah "dengan penggantian" tidak jelas untuk Anda. Seperti dicatat oleh whuber , ilustrasi sampling dengan penggantian diberikan pada hal. 3 dari kertas yang Anda rujuk (direproduksi di bawah).
(sumber: http://web.stanford.edu/class/psych252/tutorials/doBootstrapPrimer.pdf )
Gagasan umum pengambilan sampel dengan penggantian adalah bahwa case apa saja dapat disampel beberapa kali (marmer hijau pada gambar pertama di atas; kelereng biru dan ungu pada gambar terakhir). Jika Anda ingin membayangkan sendiri proses ini, pikirkan mangkuk berisi kelereng berwarna-warni. Katakan bahwa Anda ingin menggambar sejumlah kelereng dari mangkuk ini. Jika Anda mengambil sampel tanpa penggantian, maka Anda hanya akan mengambil kelereng dari mangkuk dan meletakkannya di samping. Jika Anda mengambil sampel dengan penggantinya, maka Anda akan mengambil sampel kelereng satu demi satu, dengan mengeluarkan satu kelereng dari mangkuk, mendaftar warnanya di notebook Anda dan kemudian mengembalikannya kembali.ke mangkuk. Jadi ketika pengambilan sampel dengan penggantian marmer yang sama dapat disampel beberapa kali.
Ada cara pengambilan sampel tanpa penggantian kasus di luar populasi dengan ukuran dan cara pengambilan sampel dengan penggantian. Jika Anda ingin membaca lebih lanjut tentang matematika di baliknya, Anda dapat memeriksa 2.1. Bab Combinatorics Pengantar Probabilitas buku pegangan online oleh Hossein Pishro-Nik. Ada juga lembar contekan berguna di halaman WolframMathWorld . kn ( n+k-1(nk) k n (n+k−1k)
sumber
Ketika ukuran sampel asli terlalu besar dan Anda tidak ingin / tidak bisa melatih model pada dataset lengkap, "saran yang baik" tidak begitu baik.
PS: Saya ingin menambahkan ini sebagai komentar untuk pertanyaan tetapi saya tidak diizinkan untuk menambahkan komentar ...
sumber