Bagaimana jika Anda mengambil sampel acak dan Anda dapat melihatnya jelas tidak representatif, seperti dalam pertanyaan terbaru . Misalnya, bagaimana jika distribusi populasi seharusnya simetris di sekitar 0 dan sampel yang Anda buat secara acak memiliki pengamatan positif dan negatif yang tidak seimbang, dan ketidakseimbangan itu signifikan secara statistik, di mana itu membuat Anda? Pernyataan masuk akal apa yang dapat Anda buat tentang populasi berdasarkan sampel yang bias? Apa tindakan yang masuk akal dalam situasi seperti itu? Apakah penting ketika dalam penelitian kami memperhatikan ketidakseimbangan ini?
sampling
experiment-design
inference
sample
Joel W.
sumber
sumber
Jawaban:
The jawaban yang diberikan oleh MLS (menggunakan pentingnya sampling) adalah hanya sebagai baik sebagai asumsi Anda dapat membuat tentang distribusi Anda. Kekuatan utama dari paradigma populasi sampel adalah bahwa ia non-parametrik, karena tidak membuat asumsi tentang distribusi data untuk membuat kesimpulan (valid) pada parameter populasi terbatas.
Pendekatan untuk mengoreksi ketidakseimbangan sampel disebut pasca-stratifikasi . Anda perlu memecah sampel menjadi kelas-kelas yang tidak tumpang tindih (post-strata), dan kemudian mengubah kelas-kelas ini sesuai dengan angka populasi yang diketahui. Jika populasi Anda diketahui memiliki median 0, maka Anda dapat mengulangi pengamatan positif dan negatif sehingga proporsi tertimbangnya menjadi 50-50: jika Anda memiliki SRS sial dengan 10 pengamatan negatif dan 20 pengamatan positif, Anda akan memberikan yang negatif berat 15/10 = 1,5 dan positif, 15/20 = 0,75.
Bentuk kalibrasi sampel yang lebih halus memang ada , di mana Anda dapat mengkalibrasi sampel Anda untuk memenuhi kendala yang lebih umum, seperti memiliki rata-rata variabel kontinu agar sama dengan nilai spesifik. Kendala simetri cukup sulit untuk dikerjakan, meskipun itu mungkin bisa dilakukan juga. Mungkin Jean Opsomer memiliki sesuatu dalam hal ini: dia telah melakukan banyak pekerjaan estimasi kernel untuk data survei.
sumber
Saya Anggota Junior di sini, tetapi saya akan mengatakan bahwa membuang dan memulai kembali selalu merupakan jawaban terbaik, jika Anda tahu bahwa sampel Anda secara signifikan tidak representatif, dan jika Anda memiliki gagasan tentang bagaimana pengambilan sampel yang tidak representatif muncul di tempat pertama dan bagaimana menghindarinya jika memungkinkan untuk yang kedua kalinya.
Apa gunanya mengambil sampel untuk kedua kalinya jika Anda mungkin akan berakhir di perahu yang sama?
Jika melakukan pengumpulan data lagi tidak masuk akal atau mahal, Anda harus bekerja dengan apa yang Anda miliki, berusaha untuk mengkompensasi ketidakterwakilan melalui stratifikasi, imputasi, pemodelan yang lebih menarik, atau apa pun. Anda perlu mencatat dengan jelas bahwa Anda memberi kompensasi dengan cara ini, mengapa menurut Anda itu perlu, dan mengapa menurut Anda itu berhasil. Kemudian kerjakan ketidakpastian yang muncul dari kompensasi Anda sepanjang jalan melalui analisis Anda. (Itu akan membuat kesimpulanmu kurang pasti, kan?)
Jika Anda tidak bisa melakukan itu, Anda harus menghentikan proyek sepenuhnya.
sumber
sumber