Model pengambilan sampel untuk data crowdsourced?

Saya sedang mengerjakan aplikasi survei kesehatan terbuka, yang rencananya akan digunakan di negara berkembang.

Ide dasarnya adalah bahwa wawancara survei adalah crowdsourced - mereka dilakukan oleh sukarelawan yang tidak terorganisir yang mengirimkan data formulir wawancara yang mereka lakukan dengan menggunakan perangkat mobile mereka, dan setiap survei disertai dengan data GPS dari lokasi wawancara.

Survei tradisional yang disusun oleh lembaga pemerintah biasanya dilaksanakan dengan menggunakan beberapa model pengambilan sampel standar - biasanya model pengambilan sampel probabilitas. Ini membutuhkan banyak perencanaan terpusat yang tidak selalu dapat dilakukan. (sebutkan ini untuk menempatkan pertanyaan saya dalam konteks yang benar)

Kita dapat mengatakan bahwa seorang sukarelawan akan menerapkan sampling kenyamanan di sekitar wilayahnya. Dia akan mewawancarai secara acak sejumlah orang yang bisa dia jangkau.

Masalah dasarnya adalah: Bagaimana bisa memahami dan mengkarakterisasi model pengambilan sampel keseluruhan dari sistem survei ini? Apakah ada metodologi atau model yang disusun untuk menangani kasus seperti itu?

sampling al-Amjad Tawfiq Isstaif
sumber

Jawaban singkat: Ini adalah contoh kenyamanan. Tidak ada yang bisa Anda lakukan untuk membenarkannya.

Jawaban yang agak lebih panjang: Anda berada di kapal yang sama dengan banyak jejaring sosial yang menjalankan survei internal tanpa tahu banyak tentang siapa yang akan menanggapi survei satu pertanyaan yang akan muncul secara acak di Facebook atau Google + ... kecuali bahwa tidak seperti raksasa ini, Anda tidak tidak memiliki data tentang mereka yang tidak merespons. Komunitas penelitian survei dan opini publik pada umumnya tidak menyukai jenis pekerjaan ini, karena sama sekali tidak jelas bagaimana hasil sampel yang sangat bias ini dapat digeneralisasi ke total populasi (jika ada). Anda dapat mencoba untuk mengubah nilai berdasarkan demografi yang diketahui, tetapi kemudian Anda akan berakhir dengan variasi bobot mulai dari 1 untuk seseorang yang hanya mewakili diri mereka sendiri hingga 1.000.000 yang ditugaskan untuk hanya 70+ pria di populasi yang tahu cara menggunakan komputer (Lagi pula, kemungkinan tidak mewakili 1.000.000 70+ pria yang tersisa).

Bacaan tambahan: "Cara Berbohong Dengan Statistik" dibuka dengan bab tentang sampel yang bias. Jika Anda dapat membacanya dan tidak menangis frustrasi tentang desain sampel Anda, Anda dapat melanjutkan. Jika Anda mengandalkan sukarelawan, sampel Anda menjadi bias terhadap populasi muda dan perkotaan dengan akses yang lebih baik ke gadget elektronik. Demikian juga, buklet "Apa itu Survei" yang disatukan oleh Fritz Scheuren, mantan presiden Asosiasi Statistik Amerika, membuka dengan gambar Harry Truman yang kemenangannya tidak dapat diprediksi oleh teknik pemungutan suara yang bias yang ada pada saat itu.

Ada beberapa penelitian tentang populasi yang sulit dijangkau . Salah satu proyek terkenal adalah penelitian terhadap jumlah kematian berlebih di Irak di mana wilayah geografis dijadikan sampel, dan di setiap wilayah, dokter setempat akan mencoba untuk mengumpulkan wawancara dari setiap rumah tangga di blok kota. Sudah ada banyak kritik terhadap desain ini, tetapi betapapun komprominya, masih ada komponen pengambilan sampelnya. Lihat karya tulis di Lancet (seperti yang mungkin Anda ketahui, Anda tidak bisa mendapatkan yang lebih bergengsi di dunia medis) http://dx.doi.org/10.1016/S0140-6736(04)17441-2 dan http: //dx.doi .org / 10.1016 / S0140-6736 (06) 69491-9 .

Tugas
sumber

(+1) Stas, apakah ada sesuatu yang secara fundamental berbeda di sini dari kuota sampling ? Hanya ingin tahu, sepintas membaca pertanyaan membuatnya tampak seperti hanya perubahan terminologi. Juga, secara singkat, apa kritik utama dari studi pengambilan sampel kluster Irak? Saya ingat melihat ini ketika pertama kali keluar dan membaca sedikit tentang itu.

kardinal

Saya kira satu perbedaan adalah bahwa tidak ada kuota per individu ...;)

kardinal

Terima kasih banyak! Sekarang, saya memiliki pemahaman yang baik sebelum mendesain ulang ide!

al-Amjad Tawfiq Isstaif

en.wikipedia.org/wiki/Lancet_surveys_of_Iraq_War_casualties

StasK

Saya pikir ada masalah dengan sejumlah kecil cluster, dan satu cluster berakhir outlier di mana aktivitas militer jauh lebih tinggi daripada di tempat lain di negara ini. Bagi saya, hal pertama yang harus dilihat adalah pernyataan AAPOR dan ASA tentang penelitian ini. Sementara Lancet mungkin merupakan jurnal medis yang hebat, dan John Hopkins, seorang medis yang hebat, mengendus otoritas AAPOR dan menyangkal mereka, dokumen metodologi hanya tidak profesional.

Tugas

Model pengambilan sampel untuk data crowdsourced?

Jawaban: