Saya perlu bantuan untuk menjelaskan, dan mengutip teks statistik dasar, makalah atau referensi lain, mengapa umumnya tidak benar menggunakan statistik margin of error (MOE) yang dilaporkan dalam polling untuk secara naif mendeklarasikan ikatan statistik.
Contoh: Calon A memimpin Calon B dalam suatu jajak pendapat, persen, margin-of-error untuk pemilih yang disurvei.4,5 % 500
Alasan teman saya seperti:
Karena kerumitan pemodelan statistik, margin of error berarti bahwa dukungan sejati A bisa serendah 34,5 persen dan B bisa setinggi 35,5 persen. Oleh karena itu, A dan B sebenarnya dalam statistik mati panas.
Semua bantuan dihargai dengan mengartikulasikan dengan jelas cacat pemikiran teman saya. Saya sudah mencoba menjelaskan bahwa secara naif menolak hipotesis "A lead B" jika .
Jawaban:
Upaya pertama saya pada jawaban cacat (lihat di bawah untuk jawaban cacat). Alasan cacatnya adalah bahwa margin of error (MOE) yang dilaporkan berlaku untuk persentase pemungutan suara seorang calon tetapi tidak dengan perbedaan persentase. Upaya kedua saya secara eksplisit menjawab pertanyaan yang diajukan oleh OP sedikit lebih baik.
Usaha kedua
Teman OP beralasan sebagai berikut:
Masalah utama di sini adalah bahwa langkah pertama tidak valid. Membangun interval kepercayaan secara independen untuk kedua kandidat bukanlah langkah yang valid karena persentase polling untuk kedua kandidat adalah variabel acak dependen. Dengan kata lain, seorang pemilih yang memutuskan untuk tidak memilih A dapat berpotensi memutuskan untuk memilih B sebagai gantinya. Dengan demikian, cara yang benar untuk menilai apakah lead signifikan atau tidak adalah dengan membangun interval kepercayaan untuk perbedaan. Lihat wiki tentang cara menghitung kesalahan standar untuk perbedaan persentase polling berdasarkan beberapa asumsi.
Jawaban cacat di bawah
Menurut pendapat saya cara yang benar untuk memikirkan hasil pemungutan suara adalah sebagai berikut:
Apakah Anda percaya bahwa 'A lead B' atau 'A ties B' tergantung pada sejauh mana Anda bersedia menerima 5% sebagai kriteria cut-off Anda.
sumber
Lebih mudah untuk menjelaskan dalam hal standar deviasi, daripada interval kepercayaan.
Tetapi semua nuansa ini tampaknya menunjukkan bahwa organisasi pemungutan suara harus melaporkan margin of error pada perbedaan. Dimana Nate Silver?
sumber
Tidak hanya itu cara yang buruk untuk menyebut hal-hal tetapi itu bahkan tidak mematikan statistik.
Anda tidak menggunakan interval kepercayaan yang tumpang tindih dengan cara itu. Jika Anda benar-benar hanya ingin mengatakan bahwa Calon A akan menang maka Calon A pasti memimpin. Lead adalah 8% MOE 6,4%. Interval kepercayaan dari skor pengurangan itu tidak menggandakan interval kepercayaan dari skor individual. Yang tersirat dengan mengklaim tumpang tindih CI (± MOE) di sekitar setiap perkiraan adalah mati panas. Dengan asumsi sama N dan varians, MOE dari perbedaannya adalah sqrt (2) kali 4,5. Itu karena menemukan perbedaan antara nilai hanya akan menggandakan varians (SD kuadrat). Interval kepercayaan didasarkan pada sqrt dari varians sehingga menggabungkannya adalah rata-rata (4,5) * sqrt (2). Karena MOE dari lead 8% Anda adalah sekitar 6,4% maka Calon A berada di lead.
Selain itu, MOE sangat konservatif dan didasarkan pada nilai pilihan 50%. Rumusnya adalah sqrt (0.25 / n) * 2. Ada rumus untuk menghitung kesalahan standar dari skor perbedaan yang bisa kita gunakan juga. Kami akan menerapkan bahwa menggunakan nilai-nilai yang ditemukan alih-alih cutoff 50% dan yang masih memberi kami keunggulan signifikan untuk Calon A (7,5% MOE). Saya percaya bahwa, mengingat komentar para penanya, dan kedekatan dari cutoff itu dengan yang hipotetis dipilih, bahwa itu mungkin yang mereka cari.
Setiap pengantar interval kepercayaan dan kekuasaan akan membantu di sini. Bahkan artikel wikipedia di MOE terlihat cukup bagus.
sumber