Jajak pendapat di luar sana (katakanlah, Gallup) sampel beberapa jumlah orang sangat rendah dibandingkan dengan ukuran populasi (misalnya mungkin seribu orang dari ratusan juta).
Sekarang, bagi saya, sampling populasi sebagai sarana untuk memperkirakan statistik populasi masuk akal ketika Anda memiliki alasan kuat untuk percaya sampel mewakili populasi (atau, serupa, dari sampel lain ) .
Sebagai contoh, pengambilan sampel jelas masuk akal untuk studi medis, karena kita tahu apriori bahwa manusia semua memiliki genom yang sangat mirip dan bahwa faktor ini membuat tubuh mereka berperilaku sama.
Perhatikan bahwa ini bukan semacam kopling longgar - genom adalah faktor penentu yang sangat kuat .
Namun, saya hanya tidak mengerti apa yang membenarkan menggunakan ukuran sampel rendah untuk hal-hal seperti jajak pendapat politik.
Saya dapat membeli bahwa mungkin 80-90% orang di lingkungan tertentu memberikan suara yang sama untuk presiden (karena latar belakang sosial ekonomi / pendidikan yang serupa), tetapi ini tampaknya tidak membenarkan jumlah sampel yang sangat rendah. Secara harfiah tidak ada alasan kuat (setidaknya bagi saya) mengapa 1000 pemilih acak harus berperilaku seperti 200 juta pemilih lainnya.
Bagi saya, Anda membutuhkan setidaknya (katakanlah) 100 × jumlah itu. Mengapa? Saya dapat memikirkan banyak alasan, misalnya:
Ada ~ 22.000 kantor di California . Orang-orang tumbuh begitu berbeda dalam latar belakang ekonomi dan pendidikan mereka sehingga jajak pendapat dengan ukuran 1000 tampaknya sangat kecil. Bagaimana Anda bisa merangkum seluruh kawasan dengan rata-rata <1 orang?
Orang pada umumnya tidak dapat mengubah respons tubuh mereka terhadap obat-obatan, tetapi mereka dapat mengubah pendapat mereka tentang politik hanya dengan memikirkannya. Cara saya melihatnya, tidak ada faktor pemaksa yang mirip dengan DNA dalam kedokteran ketika Anda berurusan dengan politik. Paling- paling saya bayangkan harus ada kantong kecil korelasi.
Namun entah bagaimana, jajak pendapat seperti ini sepertinya ... berfungsi? Atau setidaknya orang-orang tampaknya berpikir begitu?
Tetapi mengapa mereka harus melakukannya? Mungkin secara mendasar saya tidak mengerti pengambilan sampel ? Bisakah seseorang menjelaskan?
Aku hanya tidak bisa menerima jajak pendapat yang saya lihat dengan serius, tapi saya merasa kurang lebih sendirian dalam hal ini ...
sumber
Jawaban:
Sepertinya Anda membayangkan model pengambilan sampel yang sangat sederhana.
Model paling sederhana untuk pengambilan sampel disebut aptly Simple Random Sampling . Anda memilih subset dari populasi (misalnya, dengan memutar nomor telepon secara acak) dan bertanya siapa pun yang menjawab bagaimana mereka memberikan suara. Jika 487 mengatakan Clinton, 463 mengatakan Trump, dan sisanya memberi Anda jawaban aneh, maka perusahaan pemungutan suara akan melaporkan bahwa 49% pemilih lebih memilih Clinton, sementara 46% memilih Trump. Namun, perusahaan pemungutan suara melakukan lebih dari ini. Sampel acak sederhana memberikan bobot yang sama untuk setiap titik data. Namun, anggaplah sampel Anda mengandung - secara kebetulan - 600 pria dan 400 wanita, yang jelas tidak mewakili populasi secara keseluruhan. Jika pria sebagai kelompok condong ke satu arah, sementara wanita condong ke arah yang lain, ini akan membiasakan hasil Anda. Namun, karena kami memiliki statistik demografis yang cukup baik, Anda dapat mempertimbangkan *tanggapan dengan menghitung tanggapan perempuan sedikit lebih banyak dan laki-laki sedikit lebih sedikit, sehingga tanggapan tertimbang mewakili populasi yang lebih baik. Organisasi pemungutan suara memiliki model penimbangan yang lebih rumit yang dapat membuat sampel yang tidak representatif menyerupai yang lebih representatif.
Gagasan untuk menimbang respons sampel didasarkan pada landasan statistik yang cukup kuat, tetapi ada beberapa fleksibilitas dalam memilih faktor apa yang berkontribusi terhadap bobot. Sebagian besar lembaga survei melakukan reweight berdasarkan faktor demografis seperti jenis kelamin, usia, dan ras. Dengan ini, Anda mungkin berpikir bahwa identifikasi partai (Demokrat, Republik, dll) juga harus dimasukkan, tetapi ternyata sebagian besar perusahaan pemungutan suara tidak menggunakannya dalam bobot mereka: identifikasi partai (diri) dihimpit dengan pilihan pemilih. dengan cara yang membuatnya kurang bermanfaat.
Banyak pakaian pemungutan suara juga melaporkan hasilnya di antara "kemungkinan pemilih". Dalam hal ini, responden dipilih atau dibobot berdasarkan kemungkinan bahwa mereka akan benar-benar muncul ke tempat pemungutan suara. Model ini tidak diragukan lagi didorong oleh data, tetapi pilihan faktor yang tepat memungkinkan fleksibilitas. Sebagai contoh, termasuk interaksi antara kandidat dan ras pemilih (atau gender) bahkan tidak masuk akal sampai 2008 atau 2016, tetapi saya menduga mereka memiliki kekuatan prediksi sekarang.
Secara teori, Anda dapat memasukkan segala macam hal sebagai faktor penimbangan: preferensi musik, warna mata, dll. Namun, faktor demografis adalah pilihan populer untuk faktor penimbangan karena:
Namun, lembaga survei juga melihat berita yang sama dengan yang dilakukan orang lain, dan dapat menyesuaikan variabel bobot jika perlu.
Ada juga beberapa "faktor fudge" yang kadang-kadang digunakan untuk menjelaskan hasil jajak pendapat. Misalnya, responden terkadang enggan memberikan jawaban yang "tidak diinginkan secara sosial". The Bradley Effect berpendapat bahwa pemilih kulit putih kadang-kadang mengecilkan dukungan mereka bagi calon putih berjalan terhadap minoritas untuk menghindari muncul rasis. Ini dinamai Tom Bradley, seorang kandidat gubernur Afrika-Amerika yang kalah tipis dalam pemilihan meskipun memimpin dengan nyaman dalam pemilihan.
Akhirnya, Anda sepenuhnya benar bahwa tindakan meminta pendapat seseorang dapat mengubahnya. Perusahaan polling mencoba menulis pertanyaan mereka dengan cara yang netral. Untuk menghindari masalah dengan urutan respons yang mungkin, nama kandidat mungkin dicantumkan dalam urutan acak. Beberapa versi pertanyaan juga terkadang diuji satu sama lain. Efek ini juga dapat dieksploitasi untuk tujuan jahat dalam jajak pendapat push , di mana pewawancara sebenarnya tidak tertarik untuk mengumpulkan tanggapan tetapi dalam mempengaruhi mereka. Misalnya, jajak pendapat push mungkin bertanya "Apakah Anda memilih [Calon A] bahkan jika dilaporkan bahwa ia adalah penganiaya anak-anak?".
* Anda juga dapat menetapkan target eksplisit untuk sampel Anda, seperti termasuk 500 pria dan 500 wanita. Ini disebut pengambilan sampel bertingkat - populasi dikelompokkan menjadi kelompok-kelompok yang berbeda, dan setiap kelompok kemudian dijadikan sampel secara acak. Dalam praktiknya, ini tidak sering dilakukan untuk pemungutan suara, karena Anda perlu stratifikasi menjadi banyak kelompok lengkap (misalnya, pria berpendidikan tinggi antara 18-24 di Urban Texas).
sumber
Ada teorema matematika yang disebut "hukum bilangan besar". Bayangkan Anda ingin menentukan probabilitas bahwa koin akan muncul. "Populasi" flip mata uang adalah tak terhingga - jauh lebih besar daripada 300.000.000 orang di Amerika Serikat. Tetapi menurut Hukum Angka Besar, semakin banyak koin yang Anda lakukan, semakin akurat perkiraan Anda.
Jajak pendapat yang ideal: Dalam jajak pendapat yang ideal, para jajak pendapat akan secara acak memilih nama-nama dari Sensus AS, mereka akan mencari tahu di mana orang-orang itu tinggal, kemudian mereka akan pergi dan mengetuk pintu mereka. Jika orang tersebut mengatakan bahwa mereka berencana untuk memilih, pemberi suara bertanya kepada siapa mereka memilih dan mencatat jawaban mereka. Polling seperti ini dijamin secara matematis untuk bekerja dan jumlah kesalahan dalam pengukuran Anda untuk tingkat kepercayaan tertentu dapat dihitung dengan mudah .
Inilah yang dimaksud dengan kesalahan: Misalkan berdasarkan jajak pendapat Anda, Anda mendapat peluang 52 persen Calon McPerfect Luar Biasa akan menang, dengan kesalahan 3% dengan kepercayaan 98%. Itu berarti bahwa Anda dapat 98% yakin bahwa bagian sebenarnya dari pemilih yang menyukai kandidat Awesome McPerfect adalah antara 49% dan 55%.
Catatan tentang Kesalahan dan Keyakinan Untuk ukuran sampel yang diberikan, semakin percaya diri Anda, semakin besar kesalahan Anda. Pikirkan tentang hal itu - Anda 100% yakin bahwa proporsi sebenarnya yang mendukung Canditate Awesome adalah antara 0% dan 100% (kemungkinan kesalahan paling banyak), dan Anda 0% yakin bahwa proporsi sebenarnya yang mendukung canditate Awesome adalah persis 52.0932840985028390984308% (nol kesalahan). Lebih percaya diri berarti lebih banyak kesalahan, kurang percaya diri berarti lebih sedikit kesalahan. Namun, hubungan antara kepercayaan dan kesalahan TIDAK linear! (Lihat: https://en.wikipedia.org/wiki/Confidence_interval )
Jajak pendapat di dunia nyata: Karena mahal untuk membuat helikopter jajak pendapat ke semua bagian negara untuk mengetuk pintu orang-orang acak (meskipun saya ingin melihat itu terjadi; jika Anda seorang miliaran dan Anda melihat ini, tolong pertimbangkan pendanaan ini), jajak pendapat di dunia nyata lebih kompleks. Mari kita lihat salah satu strategi yang lebih umum - memanggil pemilih acak dan bertanya kepada mereka siapa yang akan mereka pilih. Ini adalah strategi yang baik, tetapi memiliki beberapa kegagalan yang diketahui:
Karena demografi yang berbeda memberikan suara dengan cara yang berbeda, para pemberi survei harus melakukan yang terbaik untuk mengendalikan perbedaan dalam data mentah mereka (berdasarkan siapa yang memutuskan untuk menjawab telepon) dan hasil dari pemilihan yang sebenarnya. Misalnya, jika 10% orang yang mengangkat telepon adalah orang hispanik, tetapi 30% pemilih dalam pemilihan terakhir adalah orang hispanik, maka mereka akan memberi tiga kali berat kepada pemilih hispanik dalam jajak pendapat mereka. Jika 50% orang yang menjawab telepon lebih tua dari 60, tetapi hanya 30% orang yang memberikan suara dalam pemilihan terakhir lebih tua dari 60, mereka akan memberi bobot lebih sedikit kepada pemilih yang lebih tua yang merespons. Itu tidak sempurna, tetapi dapat menyebabkan beberapa prestasi prediksi yang mengesankan (Nate Silver memprediksi dengan tepat hasil di masing-masing dari 50 negara bagian dalam pemilihan 2012 menggunakan statistik,
Sebuah kata peringatan untuk orang bijak: Para pengumpul survei membuat prediksi terbaik yang bisa mereka lakukan berdasarkan bagaimana keadaan di masa lalu. Secara umum , hal-hal bekerja hampir sama sekarang seperti yang mereka lakukan di masa lalu, atau setidaknya perubahannya cukup lambat sehingga masa lalu baru-baru ini (yang paling mereka fokuskan) akan menyerupai masa kini. Namun, kadang-kadang ada pergeseran cepat dalam pemilihan dan ada yang salah. Mungkin pemilih Trump sedikit lebih kecil kemungkinannya untuk menjawab telepon daripada pemilih rata-rata Anda, dan pembobotan berdasarkan demografi tidak menjelaskan hal itu. Atau Mungkin anak muda (yang sangat mendukung Hillary) bahkan lebihtidak mungkin untuk menjawab telepon daripada yang diprediksi model, dan yang menjawab telepon lebih cenderung republik. Atau mungkin kebalikan dari keduanya itu benar - kita tidak tahu. hal-hal seperti itu adalah variabel tersembunyi yang tidak muncul dalam demografi yang biasanya dikumpulkan.
Kita akan tahu jika kita mengirim petugas survei untuk mengetuk pintu secara acak (ahem, miliar imajiner sedang membaca ini), sejak itu kita tidak perlu mempertimbangkan hal-hal berdasarkan demografi, tetapi sampai saat itu, jari-jari saling bersilangan.
sumber
Pertama, ini terlepas dari poin utama Anda tetapi perlu disebutkan. Dalam uji coba medis Anda bisa meminta 1000 orang menguji obat yang dapat diberikan kepada 10.000 orang yang sakit setiap tahun. Anda mungkin melihat itu dan berpikir "Itu sedang diuji pada 10% dari populasi", pada kenyataannya populasinya bukan 10.000 orang, semuanya adalah pasien masa depan sehingga ukuran populasi tidak terbatas. 1000 orang tidak besar dibandingkan dengan pengguna potensial obat yang tak terbatas tetapi jenis penelitian ini bekerja. Tidak penting apakah Anda menguji 10%, 1% atau 0,1% dari populasi; yang penting adalah ukuran absolut dari sampel bukan seberapa besar dibandingkan dengan populasi.
Selanjutnya, poin utama Anda adalah bahwa ada begitu banyak variabel pengganggu yang dapat mempengaruhi pemilihan orang. Anda memperlakukan 22000 distrik di California seperti 22000 variabel tetapi sebenarnya hanya segelintir variabel (pendapatan dan pendidikan seperti yang Anda sebutkan). Anda tidak perlu sampel yang representatif dari setiap kabupaten, Anda hanya perlu sampel yang cukup untuk menutupi variasi karena pendapatan, pendidikan, dll.
Edit:
Rumus di atas mengasumsikan bahwa setiap variabel pengganggu sama pentingnya. Jika kita ingin mempertimbangkan ratusan hal yang dapat menambah varians pada hasil maka asumsi ini tidak valid (mis. Mungkin pengguna twitter mendukung satu kandidat lebih banyak, tetapi kita tahu bahwa penggunaan twitter tidak sepenting gender).
sumber