Ukuran sampel bootstrap

9

Saya belajar tentang bootstrap sebagai cara memperkirakan varians statistik sampel. Saya punya satu keraguan mendasar.

Mengutip dari http://web.stanford.edu/class/psych252/tutorials/doBootstrapPrimer.pdf :

• Berapa banyak pengamatan yang harus kita sampel ulang? Saran yang baik adalah ukuran sampel asli.

Bagaimana kita bisa membuat sampel sebanyak pengamatan seperti pada sampel asli?
Jika saya memiliki ukuran sampel 100, dan saya mencoba memperkirakan varians dari rata-rata. Bagaimana saya bisa mendapatkan beberapa sampel bootstrap ukuran 100 dari total ukuran sampel 100? Hanya 1 sampel bootstrap yang mungkin dalam hal ini yang setara dengan sampel asli, kan?

Saya jelas salah paham tentang sesuatu yang sangat mendasar. Saya memahami bahwa jumlah dari yang ideal sampel bootstrap selalu terbatas, dan untuk menentukan jumlah sampel bootstrap diperlukan untuk data saya saya harus tes untuk konvergensi menjaga presisi yang diperlukan saya dalam pikiran.
Tapi saya benar-benar bingung tentang apa yang seharusnya menjadi ukuran masing- masing sampel bootstrap individu .

pengguna1265125
sumber
7
Bagian atas hal. 3, dan ilustrasi di sana, dengan jelas dan jelas menyatakan bahwa resampling adalah pengganti.
whuber
Tetapi jika ukuran sampel bootstrap saya sama dengan jumlah total pengamatan yang saya miliki, apa yang harus saya ganti?
user1265125
Contoh sederhana - jadi jika saya memiliki 4,1,3,7,5 sebagai set sampel saya. Bagaimana saya bisa membuat beberapa sampel bootstrap ukuran 5? Satu-satunya ukuran 5 sampel bootstrap akan 4,1,3,7,5 yaitu set sampel asli.
user1265125
1
Oh, tunggu, saya mengerti - "• Untuk mensimulasikan distribusi sampling, kita bisa mengambil sampel acak berulang dari" populasi "ini yang terdiri dari banyak salinan sampel"
user1265125

Jawaban:

16

Bootstrap dilakukan dengan pengambilan sampel dengan penggantian . Tampaknya istilah "dengan penggantian" tidak jelas untuk Anda. Seperti dicatat oleh whuber , ilustrasi sampling dengan penggantian diberikan pada hal. 3 dari kertas yang Anda rujuk (direproduksi di bawah).

Ilustrasi pengambilan sampel dengan penggantian

(sumber: http://web.stanford.edu/class/psych252/tutorials/doBootstrapPrimer.pdf )

Gagasan umum pengambilan sampel dengan penggantian adalah bahwa case apa saja dapat disampel beberapa kali (marmer hijau pada gambar pertama di atas; kelereng biru dan ungu pada gambar terakhir). Jika Anda ingin membayangkan sendiri proses ini, pikirkan mangkuk berisi kelereng berwarna-warni. Katakan bahwa Anda ingin menggambar sejumlah kelereng dari mangkuk ini. Jika Anda mengambil sampel tanpa penggantian, maka Anda hanya akan mengambil kelereng dari mangkuk dan meletakkannya di samping. Jika Anda mengambil sampel dengan penggantinya, maka Anda akan mengambil sampel kelereng satu demi satu, dengan mengeluarkan satu kelereng dari mangkuk, mendaftar warnanya di notebook Anda dan kemudian mengembalikannya kembali.ke mangkuk. Jadi ketika pengambilan sampel dengan penggantian marmer yang sama dapat disampel beberapa kali.

nnnnnnn

Ada cara pengambilan sampel tanpa penggantian kasus di luar populasi dengan ukuran dan cara pengambilan sampel dengan penggantian. Jika Anda ingin membaca lebih lanjut tentang matematika di baliknya, Anda dapat memeriksa 2.1. Bab Combinatorics Pengantar Probabilitas buku pegangan online oleh Hossein Pishro-Nik. Ada juga lembar contekan berguna di halaman WolframMathWorld . kn ( n+k-1(nk)kn(n+k1k)

Tim
sumber
0

Berapa banyak pengamatan yang harus kita sampel ulang? Saran yang baik adalah ukuran sampel asli.

Ketika ukuran sampel asli terlalu besar dan Anda tidak ingin / tidak bisa melatih model pada dataset lengkap, "saran yang baik" tidak begitu baik.

PS: Saya ingin menambahkan ini sebagai komentar untuk pertanyaan tetapi saya tidak diizinkan untuk menambahkan komentar ...

daruma
sumber
1
Mengapa Anda ingin menambahkan saran ini? Jika ini karena dataset terlalu besar untuk upaya komputasi reguler, itu adalah masalah praktis yang relevan, tetapi itu tidak benar-benar berlaku untuk teori bootstrap yang dipertanyakan di sini. Selain itu, ini tentang 'memperkirakan varian statistik sampel'. Apakah itu benar-benar terkait dengan pelatihan model secara umum? (NB. Jangan bersikap kasar, saya mengerti Anda belum dapat memposting komentar, tetapi itu tidak membuat Anda tidak memberikan jawaban yang relevan ketika memposting seperti itu. Anda harus lebih jelas, ATAU memposting pertanyaan Anda sendiri)
IWS