Saya mengajar kelas statistik intro dan sedang meninjau jenis-jenis pengambilan sampel, termasuk pengambilan sampel sistematis di mana Anda mencicipi setiap individu atau objek.
Seorang siswa bertanya apakah pengambilan sampel setiap orang dengan karakteristik tertentu akan mencapai hal yang sama.
Sebagai contoh, akankah pengambilan sampel setiap orang dengan kaus biru cukup acak dan memberikan cukup representasi seluruh populasi? Setidaknya, jika Anda mengajukan pertanyaan selain "Kaos warna apa yang Anda sukai?" Perasaan saya tidak, tetapi saya bertanya-tanya apakah ada orang di sini yang memikirkan hal ini.
Jawaban:
Jawabannya, secara umum, untuk pertanyaan Anda adalah "tidak". Mendapatkan sampel acak dari suatu populasi (terutama manusia) sangat sulit dilakukan. Dengan mengkondisikan pada karakteristik tertentu, Anda secara definisi tidak mendapatkan sampel acak. Seberapa besar bias yang diperkenalkan ini adalah masalah lain.
Sebagai contoh yang agak absurd, Anda tidak akan ingin mencicipi dengan cara ini, katakanlah, pertandingan sepak bola antara Bears dan the Packers, bahkan jika populasi Anda adalah "penggemar sepak bola". (Penggemar beruang mungkin memiliki karakteristik yang berbeda dari penggemar sepak bola lainnya, bahkan ketika jumlah yang Anda tertarik mungkin tidak terkait langsung dengan sepak bola.)
Ada banyak contoh terkenal dari bias tersembunyi yang dihasilkan dari pengambilan sampel dengan cara ini. Misalnya, dalam pemilihan AS baru-baru ini di mana pemilihan telepon dilakukan, diyakini bahwa orang yang hanya memiliki telepon seluler dan tidak ada telepon rumah (mungkin secara dramatis) kurang terwakili dalam sampel. Karena orang-orang ini juga cenderung, pada umumnya, lebih muda dari mereka yang memiliki sambungan telepon rumah, sampel yang bias diperoleh. Lebih jauh, orang yang lebih muda memiliki keyakinan politik yang sangat berbeda dari populasi yang lebih tua. Jadi, ini adalah contoh sederhana dari kasus di mana, bahkan ketika sampel tidak sengaja dikondisikan pada karakteristik tertentu, itu masih terjadi seperti itu. Dan, meskipun polling tidak ada hubungannya dengan karakteristik pengkondisian baik (yaitu, apakah seseorang menggunakan jalur darat atau tidak), pengaruh karakteristik pengkondisian pada kesimpulan jajak pendapat adalah signifikan, baik secara statistik maupun praktis.
sumber
Selama distribusi karakteristik yang Anda gunakan untuk memilih unit ke dalam sampel adalah ortogonal dengan distribusi karakteristik populasi yang ingin Anda perkirakan, Anda dapat memperoleh estimasi yang tidak bias dari jumlah populasi dengan mengkondisikan pemilihannya. Sampel tidak sepenuhnya merupakan sampel acak . Tetapi orang cenderung mengabaikan bahwa sampel acak adalah baik karena variabel acak yang digunakan untuk memilih unit menjadi sampel adalah ortogonal dengan distribusi karakteristik populasi, bukan karena itu acak.
Pikirkan tentang menggambar secara acak dari Bernoulli dengan P (invlogit (x_i)) di mana x_i di [-inf, inf] adalah fitur unit i sedemikian sehingga Cov (x, y)! = 0, dan y adalah karakteristik populasi yang memiliki berarti Anda ingin memperkirakan. Sampel adalah "acak" dalam arti bahwa Anda mengacak sebelum memilih menjadi sampel. Tetapi sampel tidak menghasilkan estimasi rata-rata dari rata-rata populasi y.
Yang Anda butuhkan adalah mengkondisikan pemilihan menjadi sampel pada variabel yang sama baiknya dengan yang ditugaskan secara acak . Yaitu, itu ortogonal terhadap variabel yang menjadi dasar jumlah bunga. Pengacakan itu baik karena menjamin ortogonalitas, bukan karena pengacakan itu sendiri.
sumber