Mengapa sama sekali mempertimbangkan pengambilan sampel tanpa penggantian dalam aplikasi praktis?

12

Pengambilan sampel dengan penggantian memiliki dua keunggulan dibandingkan pengambilan sampel tanpa penggantian seperti yang saya lihat:

1) Anda tidak perlu khawatir tentang koreksi populasi terbatas.

2) Ada kemungkinan elemen-elemen dari populasi diambil beberapa kali - maka Anda dapat mendaur ulang pengukuran dan menghemat waktu.

Tentu saja dari POV akademik kita harus menyelidiki kedua metode ini. Tetapi dari POV praktis saya tidak melihat mengapa orang akan mempertimbangkan pengambilan sampel tanpa penggantian mengingat keuntungan dari penggantian.

Tapi saya seorang pemula dalam statistik sehingga mungkin ada banyak alasan bagus mengapa tanpa penggantian mungkin menjadi pilihan terbaik - setidaknya untuk kasus penggunaan khusus. Tolong, maafkan aku!

Raffael
sumber
3
Petunjuk: Pertimbangkan apa efek dari penerapan koreksi populasi terbatas, & mengapa itu mungkin menguntungkan. (Juga catat bahwa (1) melakukan penjumlahan hampir selalu lebih sedikit kesulitan & pengeluaran daripada mengumpulkan data; (2) jika Anda dapat membedakan individu Anda tidak boleh "mendaur ulang" pengukuran, tetapi inferensi dasar hanya pada individu yang berbeda.)
Scortchi - Pasang kembali Monica
Jujur, saya tidak benar-benar mengerti pernyataan Anda. FPC mengkompensasi konsekuensi numerik dari kurangnya independensi pengukuran. Tapi saya tidak tahu mengapa ini menguntungkan. (1) bagaimana hal ini berhubungan dengan pertanyaan saya? (2) Mengapa "tidak seharusnya" Anda mendaur ulang suatu pengukuran? Bukankah melakukan hal itu konsekuensi logis langsung karena secara tidak sengaja telah menggambar dua kali item yang sama saat pengambilan sampel dengan penggantian?
Raffael

Jawaban:

13

Memperluas jawaban dari @Scortchi. . .

Misalkan populasi memiliki 5 anggota dan Anda memiliki anggaran untuk sampel 5 individu. Anda tertarik pada rata-rata populasi dari variabel X, karakteristik individu dalam populasi ini. Anda bisa melakukannya dengan cara Anda, dan sampel secara acak dengan penggantian. Varians dari mean sampel adalah V (X) / 5.

Di sisi lain, anggaplah Anda sampel lima individu tanpa penggantian. Kemudian, varians dari mean sampel adalah 0. Anda telah mengambil sampel seluruh populasi, masing-masing individu tepat sekali, sehingga tidak ada perbedaan antara "mean sampel" dan "mean populasi". Mereka adalah hal yang sama.

Di dunia nyata, Anda harus melompat kegirangan setiap kali Anda harus melakukan koreksi populasi terbatas karena (drumroll ...) itu membuat varian penaksir Anda turun tanpa Anda harus mengumpulkan lebih banyak data. Hampir tidak ada yang melakukan ini. Ini seperti sihir: sihir yang baik.

Mengatakan hal yang sama persis dalam matematika (perhatikan <, dan anggap ukuran sampel lebih besar dari 1):

finite sample correction=NnN1<N1N1=1

Koreksi <1 berarti bahwa menerapkan koreksi membuat varians BAWAH, karena Anda menerapkan koreksi dengan mengalikannya dengan varians. Variance DOWN == bagus.

Bergerak ke arah yang berlawanan, sepenuhnya jauh dari matematika, pikirkan apa yang Anda tanyakan. Jika Anda ingin mempelajari tentang populasi dan Anda dapat mengambil sampel 5 orang dari sana, apakah Anda akan belajar lebih banyak dengan mengambil kesempatan untuk mengambil sampel pria yang sama sebanyak 5 kali atau apakah Anda cenderung akan belajar lebih banyak dengan memastikan Anda mencicipi 5 orang yang berbeda?

Kasus dunia nyata hampir kebalikan dari apa yang Anda katakan. Hampir tidak pernah Anda sampel dengan penggantian --- itu hanya ketika Anda melakukan hal-hal khusus seperti bootstrap. Dalam hal ini, Anda sebenarnya mencoba untuk mengacaukan estimator dan memberikan varians yang "terlalu besar".

Tagihan
sumber
Di bawah "bootstrap", saya mengerti menggunakan parameter sampel sebagai pengganti parameter populasi (yang sebenarnya harus Anda gunakan) untuk memperkirakan parameter populasi. Mengapa Anda tertarik untuk "mengacaukan" estimator dan memberikan varians yang "terlalu besar"?
Raffael
1
@ Яaffael Saya berbicara tentang bootstrap non-parametrik. Anda mengambil sampel Anda (katakanlah ukuran 100), sampel ulang dari itu dengan penggantian (100 kali menghasilkan sampel bootstrap ukuran 100), dan kemudian menghitung kembali estimator Anda yang menarik. Anda memperlakukan sampel sebagai populasi mainan, simulasi menggambar sampel dari itu, menghitung estimator. Jika Anda mengambil sampel dari populasi mainan tanpa penggantian, Anda akan benar-benar menyalin populasi mainan di sampel, mendapatkan estimasi asli sebagai perkiraan baru (yaitu varians = 0). Untuk menghindari ini, jadi Anda sampel dengan penggantian.
Bill
5

Ketepatan estimasi biasanya lebih tinggi untuk pengambilan sampel tanpa penggantian dibandingkan dengan pengambilan sampel dengan penggantian.

Sebagai contoh, adalah mungkin untuk memilih hanya satu elemen kali ketika pengambilan sampel dilakukan dengan penggantian dalam kasus yang ekstrim. Hal itu dapat menyebabkan estimasi parameter populasi yang sangat tidak tepat. Situasi seperti ini tidak dimungkinkan dalam pengambilan sampel tanpa penggantian. Jadi varians biasanya lebih rendah untuk perkiraan yang dibuat dari pengambilan sampel tanpa penggantian.n

djhurio
sumber
2

Saya kira jawabannya di sini tidak memadai, dan mereka sepertinya berdebat untuk kasus pembatas di mana jumlah data Anda sangat rendah.

Dengan sampel yang cukup besar, ini sama sekali tidak mengkhawatirkan, terutama dengan banyak contoh bootstrap (~ 1000). Jika saya telah mengambil sampel dari distribusi yang sebenarnya, sebuah dataset ukuran 10.000, dan saya melakukan resample dengan penggantian 1.000 kali, maka varian yang saya dapatkan (berbeda dengan varian yang akan saya dapatkan dengan tidak melakukan penggantian) benar-benar dapat diabaikan.

Saya akan mengatakan bahwa jawaban yang lebih akurat adalah ini: resampling tanpa penggantian sangat penting ketika memperkirakan kepercayaan dari statistik orde kedua . Misalnya, jika saya menggunakan bootstrap untuk memperkirakan ketidakpastian yang saya miliki dalam pengukuran dispersi. Menggambar dengan penggantian untuk jumlah seperti itu secara artifisial dapat menyebabkan dispersi yang diperoleh rendah.

Untuk contoh nyata dengan data nyata, jika Anda sanggup, lihat makalah ini https://arxiv.org/abs/1612.02827

secara singkat membahas pertanyaan Anda di halaman 10

Anonim
sumber
0

Saya memiliki hasil yang memperlakukan tanpa penggantian secara praktis seperti dengan penggantian dan menghilangkan semua kesulitan. Perhatikan bahwa dengan perhitungan penggantian jauh lebih mudah. Jadi, jika probabilitas melibatkan p dan q, probabilitas keberhasilan dan kegagalan, dalam dengan kasus penggantian, probabilitas yang sesuai dalam tanpa kasus penggantian diperoleh hanya dengan penggantian p ^ aq ^ b dengan (Nab) C (Ra) untuk a dan b, di mana N, R adalah jumlah total bola dan jumlah bola putih. Ingat bahwa p diperlakukan sebagai R / N.

K.Balasubramanian

Krish Balasubramanian
sumber
ada kelalaian. (Nab) C (Ra) / (NCR) adalah ekspresi yang benar. Misalnya rata-rata np menjadi n (N-1-0) / (R-1) / NCR. Anda dapat memeriksa hasil seperti itu.
Krish Balasubramanian