Pengambilan sampel dengan penggantian memiliki dua keunggulan dibandingkan pengambilan sampel tanpa penggantian seperti yang saya lihat:
1) Anda tidak perlu khawatir tentang koreksi populasi terbatas.
2) Ada kemungkinan elemen-elemen dari populasi diambil beberapa kali - maka Anda dapat mendaur ulang pengukuran dan menghemat waktu.
Tentu saja dari POV akademik kita harus menyelidiki kedua metode ini. Tetapi dari POV praktis saya tidak melihat mengapa orang akan mempertimbangkan pengambilan sampel tanpa penggantian mengingat keuntungan dari penggantian.
Tapi saya seorang pemula dalam statistik sehingga mungkin ada banyak alasan bagus mengapa tanpa penggantian mungkin menjadi pilihan terbaik - setidaknya untuk kasus penggunaan khusus. Tolong, maafkan aku!
sumber
Jawaban:
Memperluas jawaban dari @Scortchi. . .
Misalkan populasi memiliki 5 anggota dan Anda memiliki anggaran untuk sampel 5 individu. Anda tertarik pada rata-rata populasi dari variabel X, karakteristik individu dalam populasi ini. Anda bisa melakukannya dengan cara Anda, dan sampel secara acak dengan penggantian. Varians dari mean sampel adalah V (X) / 5.
Di sisi lain, anggaplah Anda sampel lima individu tanpa penggantian. Kemudian, varians dari mean sampel adalah 0. Anda telah mengambil sampel seluruh populasi, masing-masing individu tepat sekali, sehingga tidak ada perbedaan antara "mean sampel" dan "mean populasi". Mereka adalah hal yang sama.
Di dunia nyata, Anda harus melompat kegirangan setiap kali Anda harus melakukan koreksi populasi terbatas karena (drumroll ...) itu membuat varian penaksir Anda turun tanpa Anda harus mengumpulkan lebih banyak data. Hampir tidak ada yang melakukan ini. Ini seperti sihir: sihir yang baik.
Mengatakan hal yang sama persis dalam matematika (perhatikan <, dan anggap ukuran sampel lebih besar dari 1):
Koreksi <1 berarti bahwa menerapkan koreksi membuat varians BAWAH, karena Anda menerapkan koreksi dengan mengalikannya dengan varians. Variance DOWN == bagus.
Bergerak ke arah yang berlawanan, sepenuhnya jauh dari matematika, pikirkan apa yang Anda tanyakan. Jika Anda ingin mempelajari tentang populasi dan Anda dapat mengambil sampel 5 orang dari sana, apakah Anda akan belajar lebih banyak dengan mengambil kesempatan untuk mengambil sampel pria yang sama sebanyak 5 kali atau apakah Anda cenderung akan belajar lebih banyak dengan memastikan Anda mencicipi 5 orang yang berbeda?
Kasus dunia nyata hampir kebalikan dari apa yang Anda katakan. Hampir tidak pernah Anda sampel dengan penggantian --- itu hanya ketika Anda melakukan hal-hal khusus seperti bootstrap. Dalam hal ini, Anda sebenarnya mencoba untuk mengacaukan estimator dan memberikan varians yang "terlalu besar".
sumber
Ketepatan estimasi biasanya lebih tinggi untuk pengambilan sampel tanpa penggantian dibandingkan dengan pengambilan sampel dengan penggantian.
Sebagai contoh, adalah mungkin untuk memilih hanya satu elemen kali ketika pengambilan sampel dilakukan dengan penggantian dalam kasus yang ekstrim. Hal itu dapat menyebabkan estimasi parameter populasi yang sangat tidak tepat. Situasi seperti ini tidak dimungkinkan dalam pengambilan sampel tanpa penggantian. Jadi varians biasanya lebih rendah untuk perkiraan yang dibuat dari pengambilan sampel tanpa penggantian.n
sumber
Saya kira jawabannya di sini tidak memadai, dan mereka sepertinya berdebat untuk kasus pembatas di mana jumlah data Anda sangat rendah.
Dengan sampel yang cukup besar, ini sama sekali tidak mengkhawatirkan, terutama dengan banyak contoh bootstrap (~ 1000). Jika saya telah mengambil sampel dari distribusi yang sebenarnya, sebuah dataset ukuran 10.000, dan saya melakukan resample dengan penggantian 1.000 kali, maka varian yang saya dapatkan (berbeda dengan varian yang akan saya dapatkan dengan tidak melakukan penggantian) benar-benar dapat diabaikan.
Saya akan mengatakan bahwa jawaban yang lebih akurat adalah ini: resampling tanpa penggantian sangat penting ketika memperkirakan kepercayaan dari statistik orde kedua . Misalnya, jika saya menggunakan bootstrap untuk memperkirakan ketidakpastian yang saya miliki dalam pengukuran dispersi. Menggambar dengan penggantian untuk jumlah seperti itu secara artifisial dapat menyebabkan dispersi yang diperoleh rendah.
Untuk contoh nyata dengan data nyata, jika Anda sanggup, lihat makalah ini https://arxiv.org/abs/1612.02827
secara singkat membahas pertanyaan Anda di halaman 10
sumber
Saya memiliki hasil yang memperlakukan tanpa penggantian secara praktis seperti dengan penggantian dan menghilangkan semua kesulitan. Perhatikan bahwa dengan perhitungan penggantian jauh lebih mudah. Jadi, jika probabilitas melibatkan p dan q, probabilitas keberhasilan dan kegagalan, dalam dengan kasus penggantian, probabilitas yang sesuai dalam tanpa kasus penggantian diperoleh hanya dengan penggantian p ^ aq ^ b dengan (Nab) C (Ra) untuk a dan b, di mana N, R adalah jumlah total bola dan jumlah bola putih. Ingat bahwa p diperlakukan sebagai R / N.
K.Balasubramanian
sumber