Subsampel sampel acak: sampel acak?

8

Katakanlah Anda memiliki sampel acak besar pemain sepak bola di Eropa tetapi Anda hanya tertarik pada apa yang terjadi di Spanyol. Bisakah Anda mengurangi sampel Anda menjadi pemain di Spanyol dan masih menyebutnya sampel acak (tetapi dari populasi yang berbeda)? Jika tidak, bagaimana Anda menyebut subsampel itu dan tindakan pencegahan spesifik apa yang harus Anda ambil untuk dapat membuat kesimpulan tentang populasi pemain sepak bola Spanyol?

Perasaan saya adalah bahwa menggunakan subsampel itu akan baik-baik saja asalkan cukup besar, tapi mungkin saya kehilangan sesuatu.

Antoine Vernet
sumber
3
Perhatikan bahwa ini agak mirip dengan sampel penolakan. Namun, dalam metode yang Anda jelaskan, perhatikan bahwa ukuran sampel yang Anda hasilkan sebenarnya adalah variabel acak. Bergantung pada jenis analisis yang Anda pikirkan, ini mungkin atau mungkin tidak menimbulkan beberapa komplikasi. Misalnya, dalam banyak (tetapi tidak semua) GLM, ukuran sampel efektif acak, tetapi kesimpulannya dilakukan secara kondisional (dan pendekatan ini dapat dibenarkan secara ketat).
kardinal
@ cardinal Terima kasih atas referensi untuk sampel penolakan. Saya bertanya-tanya jenis komplikasi apa yang akan diperkenalkan? Jika sampel baru dapat digambarkan sebagai sampel acak dari populasi lain, tidak bisakah saya "secara virtual" mengabaikan fakta bahwa sampel itu diperoleh melalui resampling?
Antoine Vernet

Jawaban:

2

Secara umum, apa yang sebenarnya Anda inginkan dari sampel, adalah menjadi "representatif". Pengambilan sampel acak adalah cara yang baik untuk dilakukan karena memungkinkan semua subjek dengan probabilitas yang sama untuk dijadikan sampel; Dengan harapan bahwa semua atribut dan hubungan-atribut yang ada dalam populasi akan ada dalam sampel. Menjadikannya "representatif". Dalam kasus Anda, jika Anda yakin semua pemain Spanyol memiliki peluang sama a-priori untuk ditarik dalam sampel (sub), maka itu "acak".

Mengenai pertimbangan ukuran: Pengamatan tunggal masih bisa menjadi "sampel acak". Sampel yang lebih besar diperlukan ketika Anda menginginkan lebih presisi, dan terutama ketika Anda mencari hubungan langka dalam populasi, yang mungkin tidak hadir dalam sampel kecil.

JohnRos
sumber
3
Keacakan adalah lebih dari peluang sebelumnya yang sama. Misalnya, satu tim di Spanyol dapat dipilih secara acak. Dengan asumsi ukuran tim yang sama, ini memberi semua pemain sepak bola peluang yang sama untuk dimasukkan dalam sampel, tetapi sulit untuk menganggap bahwa satu tim benar-benar mewakili semua pemain di negara ini.
whuber
2
(...) tetapi sulit untuk menganggap bahwa satu tim benar-benar mewakili semua pemain di negara ini ... terutama jika negara itu adalah Spanyol ! :)
kardinal
2
@ whuber- kamu benar. Tepatnya, tidak hanya sama dengan peluang sebelumnya , tetapi juga peluang yang sama diberikan sisa sampel. Ini akan mengecualikan skema pengambilan sampel tim.
JohnRos
@ JohnRos. Terima kasih atas ketepatan tentang hubungan antara keacakan dan keterwakilan.
Antoine Vernet
@whuber Terima kasih telah menunjukkan bahwa peluang sebelumnya yang sama diperlukan tetapi tidak cukup.
Antoine Vernet
1

Dengan asumsi tidak ada bias dalam teknik pengambilan sampel, ini harus baik-baik saja. Beberapa pertanyaan yang mungkin diajukan adalah:

-> Apakah survei dilakukan dalam bahasa Spanyol jika diminta? (Bias bahasa) -> Apakah survei dilakukan melalui telepon atau secara langsung? Jika melalui telepon, dan telepon seluler dikecualikan, apakah para pemain Spanyol lebih atau kurang mungkin memiliki telepon seluler daripada para pemain di seluruh Eropa, dan untuk alasan apa? -> Apakah tingkat di mana pemain Spanyol menolak untuk menjawab pertanyaan survei berbeda dari tingkat untuk pemain secara keseluruhan? -> Secara keseluruhan, berapa proporsi pemain Spanyol yang disampel?

Tanpa mengetahui komposisi data yang tepat, sulit untuk mengatakan lebih banyak. Apakah ada masalah khusus yang Anda khawatirkan?

John Doucette
sumber
Saya setuju dengan poin yang Anda buat , tetapi di mana dikatakan bahwa para pemain dihubungi atau berusaha dihubungi? OP bisa saja memiliki, katakanlah, beberapa statistik ringkasan untuk subset acak pemain dari Eropa.
kardinal
@ John Doucette Terima kasih. Tindakan pencegahan ini masuk akal bagi saya, tetapi sebenarnya, itu bukan tindakan pencegahan statistik tetapi tindakan desain, yang membuat saya berpikir bahwa dengan asumsi tidak ada bias yang diketahui untuk subpopulasi, memilih orang dalam subpopulasi dalam sampel Anda membuat Anda dengan sampel acak . Adapun data, contohnya adalah fiktif, saya hanya mencoba untuk menjauh dari anak-anak di ruang kelas di sekolah-sekolah jenis contoh.
Antoine Vernet