Dalam pemilihan, bagaimana kita bisa memberi tahu kepastian bahwa seorang kandidat akan menjadi pemenang?

Ada pemilihan umum di mana saya tinggal kemarin dan jaringan televisi mulai memanggil pemenang jauh sebelum semua surat suara dibuka.

Mereka ternyata benar di semua akun, dan saya tidak benar-benar terkejut mereka melakukannya. Saya tahu bahwa statistik sangat layak. Tetap saja saya penasaran. Asumsi:

kami telah membuka dari surat suara; $i$ $j$
kami memiliki kandidat yang nilainya saat ini adalah ; $n$ $c_1, c_2, c_3, ... c_n$

Bagaimana kita bisa menghitung kepastian pemenang kandidat utama?

elections zneak
sumber

Ingatlah bahwa mereka biasanya memiliki akses ke data polling keluar yang luas , & data lain yang dapat mereka gunakan untuk memprediksi hasilnya. Mereka hanya perlu konfirmasi yang cukup dari jumlah yang masuk untuk memastikan bahwa mereka tidak melenceng karena kesalahan pengambilan sampel. Tentu saja ada kerumitan yang terlibat & penghitungan yang masuk umumnya merupakan sampel yang bias, tetapi polling yang keluar sangat membantu mereka mengatasi beberapa masalah tersebut.

gung - Reinstate Monica

Jika "dengan kepastian" dimaksudkan untuk dipahami secara harfiah, statistik dapat (hampir?) Tidak pernah menjawab pertanyaan "dengan pasti". Tetapi kita dapat memberikan jawaban dengan tingkat kepercayaan yang tinggi bahwa jawabannya akan benar. (Dengan kata lain, jika kita mendapatkan data kita dan melakukan analisis kita dengan benar, kita dapat mengatakan hal-hal seperti, "Jawaban saya hanya akan salah tentang x% dari waktu.")

Emil Friedman

Jawaban:

Kesulitan utama dalam praktik bukanlah ketidakpastian statistik bahwa rentetan keberuntungan akan memberi satu kandidat lebih banyak suara. Kesulitan utama, berdasarkan urutan besarnya atau lebih, adalah bahwa surat suara yang telah dibuka hampir tidak pernah merupakan sampel yang tidak memihak dari para pemilih. Jika Anda mengabaikan efek ini, Anda mendapatkan kesalahan terkenal "Dewey Defeats Truman," yang terjadi dengan sampel bias besar.

Dalam praktiknya, pemilih yang memilih satu kandidat dibandingkan yang lain tidak terdistribusi secara merata berdasarkan wilayah, apakah mereka bekerja pada siang hari, atau apakah mereka akan dikerahkan di luar negeri sehingga akan memilih dengan surat suara yang tidak hadir. Ini bukan perbedaan kecil.

Saya pikir apa yang dilakukan organisasi berita sekarang adalah memecah populasi menjadi kelompok-kelompok dan menggunakan hasilnya untuk memperkirakan bagaimana masing-masing kelompok memilih (termasuk jumlah pemilih). Ini mungkin didasarkan pada model dan asumsi sebelumnya berdasarkan pemilihan sebelumnya, bukan hanya data dari pemilihan ini. Ini mungkin tidak mempertimbangkan keanehan akun seperti surat suara kupu - kupu Palm Beach.

Douglas Zare
sumber

Di Australia hingga sekitar 10-15 tahun yang lalu, partai-partai konservatif biasanya mulai kuat pada penghitungan awal, dengan partai-partai progresif membuat kembalinya terlambat. Jaringan TV mungkin tahu apa yang sedang terjadi, tetapi variabilitas mungkin dibuat untuk lebih banyak drama. Itu semua berubah ketika seorang analis bernama Antony Green mulai menggunakan stan dengan hasil stan untuk memperhitungkan fakta bahwa stan kecil di daerah pedesaan cenderung menyelesaikan pekerjaan dan hasilnya lebih awal, dan mereka cenderung memilih lebih konservatif. Antony terkenal benar disebut hasil pemilihan jam sebelum orang lain menggunakan ini.

Bogdanovist

Booth by booth hasil dari tahun-tahun sebelumnya dapat digunakan untuk mengkalibrasi perkiraan hasil total dengan sangat akurat.

Peter Ellis

@DouglasZare Saya pikir maksud Anda bahwa surat suara yang dibuka bukan sampel acak.

Michael R. Chernick

@Michael Chernick: Apa perbedaan antara sampel nonrandom dan sampel bias? en.wikipedia.org/wiki/Sampling_bias tampaknya menggunakannya sebagai sinonim.

Douglas Zare

@DouglasZare Saya melihat dari tautan Anda bahwa wikipedia menggunakan sampel bias sebagai sinonim untuk non-acak. Saya pikir itu adalah pilihan yang buruk. Bias general mengacu pada ekspektasi penduga yang tidak sama dengan nilai sebenarnya dari parameter. Dalam konteks pengambilan sampel, sampel non-acak tidak menyiratkan bias untuk estimasi tertentu. Mungkin atau mungkin tidak menyebabkan bias.

Michael R. Chernick

Dalam pengambilan sampel survei diperlukan kesalahan standar estimasi proporsi. Itu lebih tergantung pada i daripada j. Juga mensyaratkan bahwa surat suara yang saya buka dipilih secara acak. Jika p adalah proporsi akhir sebenarnya untuk kandidat A, maka varians estimasi adalah

\frac{(1 - \frac{saya}{j}) hal (1 - hal)}{saya}

$\frac{(1-\frac{i}{j})p(1-p)}{i}$

$(1-\frac{i}{j})$ disebut faktor koreksi populasi terbatas. Untuk memperkirakan varian ini, estimasi biasa untuk p disubstitusi untuk p dalam rumus. Kesalahan standar didapat dengan mengambil akar kuadrat. Dalam memprediksi pemenang, pemberi suara dapat menggunakan perkiraan plus atau minus 3 kesalahan standar. Jika 0,5 tidak terdapat dalam interval, maka Calon A dinyatakan sebagai pemenang jika 0,5 berada di bawah batas bawah, atau lawannya dinyatakan sebagai pemenang jika 0,5 berada di atas batas atas. Tentu saja ini hanya mengatakan dengan sangat percaya diri siapa pemenang akan berada di acara yang 0,5 berada di luar interval. Tingkat kepercayaan adalah 0,99 jika tiga kesalahan standar adalah apa yang Anda gunakan (berdasarkan perkiraan normal untuk binomial). Jika 0,5 berada di dalam interval, tidak ada yang dinyatakan sebagai pemenang dan jajak pendapat menunggu lebih banyak data terakumulasi.

Dalam membuat proyeksi, lembaga survei dapat memilih sampel acak bertingkat dari akumulasi suara untuk menghindari bias potensial yang mungkin terjadi jika orang melihat semua surat suara yang dihitung. Masalah dengan melihat semua suara yang terakumulasi adalah bahwa daerah tertentu benar-benar menghitung orang lain dan mereka mungkin tidak mewakili populasi.

Artikel di sini menyediakan liputan yang baik tentang masalah dan banyak referensi.

Telah ditunjukkan bahwa akumulasi suara dapat memberikan estimasi proporsi yang bias karena baik kantor yang belum melaporkan adalah kantor yang cenderung menguntungkan partai dengan kandidat yang tertinggal atau surat suara yang absen cenderung mendukung kandidat yang tertinggal dan suara-suara itu dihitung terakhir. Lembaga survei canggih seperti Harris dan Gallup tidak jatuh ke dalam perangkap seperti itu. Analisis sederhana untuk membangun interval kepercayaan berdasarkan akumulasi suara yang saya uraikan hanyalah satu faktor yang digunakan. Lembaga survei ini memiliki lebih banyak informasi. Mereka memiliki jajak pendapat yang diambil sesaat sebelum pemilihan dan mereka memiliki pola pemungutan suara dari semua daerah dan suara yang tidak hadir yang diambil dalam pemilihan dalam beberapa tahun terakhir.

Jadi, jika ada bias yang jelas yang dapat mengayunkan pemilihan umum yang berlawanan arah, lembaga survei akan mengenali hal ini dan menunda memproyeksikan pemenang.

Di AS, suara yang tidak hadir datang terutama dari militer di luar negeri dan mahasiswa yang berada di sekolah jauh dari rumah. Sementara militer mungkin cenderung lebih konservatif dan cenderung memilih Partai Republik, para mahasiswa cenderung lebih liberal dan cenderung memilih Demokrat. Semua pertimbangan ini diperhitungkan.

Perhatian dan kecanggihan jajak pendapat modern adalah alasan bahwa kesalahan besar seperti jajak pendapat Literary Digest tahun 1936 atau konsesi prematur surat kabar Chicago dari pemilihan 1948 untuk Dewey belum terjadi sejak saat itu.

Michael R. Chernick
sumber

Meskipun analogi implisit dengan sampling survei tepat, bukankah pertanyaan ini menambah faktor yang menyulitkan? Pertama adalah kemungkinan lebih dari dua kandidat. Kedua adalah bahwa ini adalah masalah keputusan berurutan : tidak seperti lembaga survei, yang biasanya menentukan ukuran jajak pendapat dan membuat satu keputusan berdasarkan sampel, pada setiap saat jaringan memiliki sampel yang berkembang dan harus memutuskan apakah akan memanggil pemilihan atau menunggu informasi lebih lanjut. Aplikasi survei yang Anda kutip di sini sepertinya tidak berlaku untuk situasi yang dinamis ini. Dan mengapa jaringan menggunakan 3 SE? (Reputasinya dipertaruhkan.)

Whuber

@whuber Saya setuju bahwa ada komplikasi yang mungkin tidak dipertimbangkan dalam praktek. Saya memilih untuk kesederhanaan kasus dua kandidat di mana mayoritas menang. Saya pikir ini adalah situasi yang ada dalam pikiran OP. Menang dengan pluralitas dengan tiga kandidat atau lebih akan melibatkan menunjukkan bahwa "kandidat yang menang memiliki proporsi yang lebih tinggi daripada lawan-lawannya. Tentu saja jika Anda melakukan polling lebih dari sekali, sifat sampel yang berurutan harus diperhitungkan. Saya tidak yakin bahwa itu adalah

Michael R. Chernick

Pilihan saya 3 SE adalah karena saya pikir para pengumpul pendapat ingin "sangat yakin" bahwa mereka benar sebelum mengumumkan pemenang. Oleh karena itu saya pikir 3 akan digunakan lebih dari 2. Jika Anda ingin risiko kesalahan yang lebih kecil Anda mungkin lebih tinggi dari 3. Saya menggunakan rumus untuk kesalahan standar untuk memberi OP gagasan tentang bagaimana tingkat kepastian tergantung pada saya dan j secara sederhana. Mempersulit situasi akan membuat hasilnya lebih rumit dan ketergantungan saya dan saya tidak akan terlihat jelas.

Michael R. Chernick

n

$n$

2

$2$

Karena saya mendapatkan beberapa downvote, akankah seseorang menjelaskan alasannya?

Michael R. Chernick