Mengapa jajak pendapat politik memiliki ukuran sampel yang begitu besar?

32

Ketika saya menonton berita saya perhatikan bahwa jajak pendapat Gallup untuk hal-hal seperti pemilihan presiden memiliki [saya berasumsi secara acak] ukuran sampel lebih dari 1.000. Dari apa yang saya ingat dari statistik perguruan tinggi adalah bahwa ukuran sampel 30 adalah sampel "sangat besar". Tampaknya ukuran sampel di atas 30 tidak ada gunanya karena pengembalian yang menurun.

samplesize999
sumber
9
Akhirnya, seseorang di sini untuk berbicara tentang pakaian baru Big Data Emperor. Siapa yang butuh pengguna 600M Tweeter jika Anda bisa mendapatkan semua jawaban dari sampel statistik perguruan tinggi ukuran 30.
StasK
1
Sungguh, itu lucu.
Aaron Hall
Komentar terbaik @StasK
Brennan

Jawaban:

36

Wayne telah membahas masalah "30" dengan cukup baik (aturan praktis saya sendiri: menyebutkan angka 30 dalam kaitannya dengan statistik kemungkinan besar salah).

Mengapa angka di sekitar 1000 sering digunakan

Angka sekitar 1000-2000 sering digunakan dalam survei, bahkan dalam kasus proporsi sederhana (" Apakah Anda mendukung apapun><> ?").

Ini dilakukan agar estimasi proporsi yang cukup akurat diperoleh.

Jika pengambilan sampel binomial diasumsikan, kesalahan standar * dari proporsi sampel adalah terbesar ketika proporsinya adalah - tetapi batas atas itu masih merupakan perkiraan yang cukup baik untuk proporsi antara sekitar 25% dan 75%.12

* "standard error" = "standar deviasi dari distribusi"

Tujuan umum adalah memperkirakan persentase sekitar dari persentase sebenarnya, sekitar dari waktu. Itu disebut ' margin of error '.95 % 3 %±3%95%3%

Dalam kesalahan standar 'kasus terburuk' di bawah pengambilan sampel binomial, ini mengarah ke:

1.96×12(1-12)/n0,03

0.98×1/n0,03

n0,98/0,03

n1067.11

... atau 'sedikit lebih dari 1000'.

Jadi jika Anda mensurvei 1.000 orang secara acak dari populasi yang ingin Anda buat kesimpulannya, dan 58% sampel mendukung proposal tersebut, Anda dapat yakin bahwa proporsi populasi adalah antara 55% dan 61%.

(Terkadang nilai lain untuk margin of error, seperti 2,5% mungkin digunakan. Jika Anda membagi dua margin of error, ukuran sampel naik dengan kelipatan 4.)

Dalam survei yang kompleks di mana estimasi akurat tentang proporsi dalam beberapa sub-populasi diperlukan (misalnya proporsi lulusan perguruan tinggi kulit hitam dari Texas yang mendukung proposal), jumlahnya mungkin cukup besar sehingga subkelompok itu berukuran beberapa ratus, mungkin melibatkan puluhan ribu respons secara total.

Karena hal itu dapat dengan cepat menjadi tidak praktis, adalah lazim untuk membagi populasi menjadi subpopulasi (strata) dan sampel masing-masing secara terpisah. Meski begitu, Anda bisa berakhir dengan beberapa survei yang sangat besar.

Tampaknya ukuran sampel di atas 30 tidak ada gunanya karena pengembalian yang menurun.

Itu tergantung pada ukuran efek, dan variabilitas relatif. Efek pada varians berarti Anda mungkin memerlukan beberapa sampel yang cukup besar dalam beberapa situasi.n

Saya menjawab pertanyaan di sini (saya pikir itu dari seorang insinyur) yang berurusan dengan ukuran sampel yang sangat besar (di sekitar satu juta jika saya ingat benar) tetapi dia mencari efek yang sangat kecil.

Mari kita lihat apa sampel acak dengan ukuran sampel 30 meninggalkan kita ketika memperkirakan proporsi sampel.

Bayangkan kita bertanya kepada 30 orang apakah secara keseluruhan mereka menyetujui alamat State of the Union (sangat setuju, setuju, tidak setuju, sangat tidak setuju). Lebih jauh bayangkan bahwa bunga terletak pada proporsi yang setuju atau sangat setuju.

Katakanlah 11 dari mereka yang diwawancarai setuju dan 5 sangat setuju, dengan total 16.

16/30 adalah sekitar 53%. Berapa batasan kita untuk proporsi dalam populasi (misalnya interval 95%)?

Kita dapat menurunkan proporsi populasi ke suatu tempat antara 35% dan 71% (kurang-lebih), jika asumsi kita berlaku.

Tidak terlalu bermanfaat.

Glen_b -Reinstate Monica
sumber
+1. Seluruh jawaban itu bagus, tetapi baris pertama itu bernilai sendiri dengan sendirinya.
Matt Krause
1
Dan tentu saja Anda dapat membalikkan perhitungan dan menghitung margin kesalahan dengan sampel 30 ...
Calimo
Paragraf terakhir Anda adalah tempat pengambilan sampel bertingkat, saya yakin. Seperti yang dikatakan orang lain, pengambilan sampel acak sederhana dari populasi pemilih yang memenuhi syarat tidak benar-benar dilakukan dalam skala nasional.
Wayne
@Wayne, terima kasih; Saya sudah kembali dan menambahkan sedikit di akhir.
Glen_b -Reinstate Monica
2
+1, dan saya juga suka implikasi paradoks dari aturan praktis Anda.
James Stanley
10

Aturan khusus ini menunjukkan bahwa 30 poin sudah cukup untuk mengasumsikan bahwa data terdistribusi secara normal (yaitu, tampak seperti kurva lonceng) tetapi ini, paling banter, merupakan pedoman kasar. Jika ini penting, periksa data Anda! Ini menunjukkan bahwa Anda ingin setidaknya 30 responden untuk jajak pendapat Anda jika analisis Anda bergantung pada asumsi ini, tetapi ada faktor-faktor lain juga.

Salah satu faktor utama adalah "ukuran efek." Sebagian besar ras cenderung cukup dekat, sehingga sampel yang cukup besar diperlukan untuk mendeteksi perbedaan ini secara andal. (Jika Anda tertarik untuk menentukan ukuran sampel "benar", Anda harus melihat analisis daya ). Jika Anda memiliki variabel acak Bernoulli (sesuatu dengan dua hasil) yang kira-kira 50:50, maka Anda membutuhkan sekitar 1000 percobaan untuk mendapatkan kesalahan standar turun menjadi 1,5%. Itu mungkin cukup akurat untuk memprediksi hasil balapan (4 pemilihan Presiden AS terakhir memiliki margin rata-rata ~ 3,2 persen), yang cocok dengan pengamatan Anda dengan baik.

Data jajak pendapat sering diiris dan dipotong dadu dengan cara yang berbeda: "Apakah kandidat memimpin dengan pria pemilik senjata lebih dari 75?" atau terserah. Ini memerlukan sampel yang lebih besar karena setiap responden hanya cocok dengan beberapa kategori ini.

Jajak pendapat presiden kadang-kadang "digabungkan" dengan pertanyaan survei lainnya (misalnya, ras Kongres) juga. Karena ini bervariasi dari satu negara ke negara, orang akhirnya dengan beberapa data polling "ekstra".


Distribusi Bernoulli adalah distribusi probabilitas diskrit dengan hanya dua hasil: Opsi 1 dipilih dengan probabilitas , sedangkan opsi 2 dipilih dengan probabilitas 1 - p .p1p

Varian dari distribusi bernoulli adalah , sehingga standar error dari mean adalah p(1p) . Pasangp=0,5(pemilihan adalah seri), atur kesalahan standar ke 1,5% (0,015), dan selesaikan. Anda harus mendapatkan 1.111 subjek untuk mencapai 1,5% SEp(1p)np=0.5

Matt Krause
sumber
4
Namun +1, "30 poin sudah cukup untuk mengasumsikan bahwa data terdistribusi secara normal" tidak benar. Mungkin orang-orang percaya ini, tetapi berapa banyak data yang diperlukan untuk CLT untuk membuat distribusi sampling menyatu secara memadai ke normal tergantung pada sifat dari distribusi data (lihat di sini ). Sebaliknya, 30 (mungkin) kira-kira cukup jika data sudah normal, tetapi SD diperkirakan dari kumpulan data yang sama (cf, t-distribusi).
gung - Reinstate Monica
@Ung, sepenuhnya setuju, tetapi saya tidak ingin pergi terlalu jauh dari rel. Jangan ragu untuk mengedit lebih banyak jika Anda pikir intinya harus dibuat lebih kuat.
Matt Krause
8

Sudah ada beberapa jawaban yang sangat baik untuk pertanyaan ini, tetapi saya ingin menjawab mengapa kesalahan standar adalah apa itu, mengapa kami menggunakan sebagai kasus terburuk, dan bagaimana kesalahan standar bervariasi dengan n .p=0.5n

Andaikata kita mengambil jajak pendapat hanya satu pemilih, sebut saja dia pemilih 1, dan tanyakan "apakah Anda akan memilih Partai Ungu?" Kita dapat mengkodekan jawaban sebagai 1 untuk "ya" dan 0 untuk "tidak". Katakanlah probabilitas "ya" adalah . Kami sekarang memiliki variabel acak biner X 1 yaitu 1 dengan probabilitas p dan 0 dengan probabilitas 1 - p . Kami mengatakan bahwa X 1 adalah variabel Bernouilli dengan probabilitas keberhasilan p , yang dapat kita tulis X 1B e r n o u i l l i ( p )pX1p1pX1pX1Bernouilli(p). Nilai yang diharapkan, atau rata-rata, dari diberikan oleh E ( X 1 ) = x P ( X 1 = x ) di mana kami menjumlahkan semua hasil yang mungkin x dari X 1 . Tetapi hanya ada dua hasil, 0 dengan probabilitas 1 - p dan 1 dengan probabilitas p , jadi jumlahnya hanya E ( X 1 ) = 0 ( 1 - p ) + 1 ( p )X1E(X1)=xP(X1=x)xX11pp . Berhenti dan pikirkan. Ini sebenarnya terlihat sangat masuk akal - jika ada peluang 30% dari pemilih 1 mendukung Partai Ungu, dan kami telah mengkodekan variabel menjadi 1 jika mereka mengatakan "ya" dan 0 jika mereka mengatakan "tidak", maka kami akan mengharapkan X 1 menjadi rata-rata 0,3.E(X1)=0(1p)+1(p)=pX1

Mari kita pikirkan apa yang terjadi, kita persegi . Jika X 1 = 0 maka X 2 1 = 0 dan jika X 1 = 1 maka X 2 1 = 1 . Jadi sebenarnya X 2 1 = X 1 dalam kedua kasus. Karena mereka sama, maka mereka harus memiliki nilai yang diharapkan sama, jadi E ( X 2 1 ) = p . Ini memberi saya cara mudah menghitung varians dari variabel Bernouilli: Saya menggunakan V aX1X1=0X12=0X1=1X12=1X12=X1E(X12)=p sehingga standar deviasi adalah σ X 1 = Var(X1)=E(X12)E(X1)2=pp2=p(1p) .σX1=p(1p)

Jelas saya ingin berbicara dengan pemilih lain - sebut saja mereka pemilih 2, pemilih 3, hingga pemilih . Mari kita asumsikan mereka semua memiliki probabilitas yang sama p mendukung Partai Purple. Sekarang kita memiliki n variabel Bernouilli, X 1 , X 2 hingga X n , dengan masing-masing X iB e r n o u l l i ( p ) untuk i dari 1 hingga n . Mereka semua memiliki mean, p , dan varians yang sama, p (npnX1X2XnXiBernoulli(p)inp .p(1p)

Saya ingin menemukan berapa banyak orang dalam sampel saya berkata "ya", dan untuk melakukan itu saya bisa menambahkan semua . Aku akan menulis X = Σ n i = 1 X i . Saya dapat menghitung nilai rata-rata atau yang diharapkan dari X dengan menggunakan aturan bahwa E ( X + Y ) = E ( X ) + E ( Y ) jika harapan itu ada, dan memperluasnya ke E ( X 1 + X 2 + ... + XXiX=i=1nXiXE(X+Y)=E(X)+E(Y) . Tapi saya menambahkan n dari harapan itu, dan masing-masing adalah p , jadi saya mendapatkan total bahwa E ( X ) = n p . Berhenti dan pikirkan. Jika saya polling 200 orang dan masing-masing memiliki peluang 30% untuk mengatakan mereka mendukung Partai Ungu, tentu saja saya berharap 0,3 x 200 = 60 orang mengatakan "ya". Jadi n p rumus terlihat benar. Kurang "jelas" adalah bagaimana menangani varians.E(X1+X2++Xn)=E(X1)+E(X2)++E(Xn)npE(X)=npnp

Ada adalah sebuah aturan yang mengatakan tapi aku bisa hanya menggunakannya jika variabel acak saya tidak tergantung satu sama lain . Baiklah, mari kita buat asumsi itu, dan dengan logika yang sama sebelum saya bisa melihat V itu

Var(X1+X2++Xn)=Var(X1)+Var(X2)++Var(Xn)
. Jika variabel X adalah jumlah dari n percobaan Bernoulliindependen, dengan probabilitas keberhasilan yang identik p , maka kita mengatakan bahwa X memiliki distribusi binomial, X B i n o m i a l ( n , p ) . Kami baru saja menunjukkan bahwa rata-rata seperti distribusi binomial adalah n p dan varians adalah n pVar(X)=np(1p)Xn pXXBinomial(n,p)np .np(1p)

Masalah awal kami adalah bagaimana memperkirakan dari sampel. Cara yang masuk akal untuk mendefinisikan estimator kami adalah p = X / n . Misalnya 64 dari sampel 200 orang kami mengatakan "ya", kami memperkirakan bahwa 64/200 = 0,32 = 32% orang mengatakan mereka mendukung Partai Ungu. Anda dapat melihat bahwa p adalah "skala-down" versi jumlah kami ya-pemilih, X . Itu berarti masih variabel acak, tetapi tidak lagi mengikuti distribusi binomial. Kita dapat menemukan rerata dan variansnya, karena ketika kita skala variabel acak dengan faktor konstan k maka ia mematuhi aturan berikut: E ( k X )pp^=X/np^Xk (jadi skala rata-rata dengan faktor yang sama k ) dan V a r ( k X ) = k 2 V a r ( X ) . Perhatikan bagaimana skala varian oleh k 2 . Itu masuk akal ketika Anda tahu bahwa secara umum, varians diukur dalam kuadrat dari unit apa pun variabel diukur: tidak begitu berlaku di sini, tetapi jika variabel acak kami adalah tinggi dalam cm maka varians akan berada di c m 2 yang memiliki skala berbeda - jika Anda menggandakan panjang, Anda melipatgandakan area.E(kX)=kE(X)kVar(kX)=k2Var(X)k2cm2

Di sini faktor skala kami adalah . Ini memberi kitaE( p )=11n. Ini bagus! Rata-rata, kami estimator p adalah persis apa yang "harus", yang benar probabilitas (atau populasi) bahwa pemilih acak mengatakan bahwa mereka akan memilih Partai Purple. Kami mengatakan bahwa estimator kami adalahberisi. Tetapi sementara itu benar rata-rata, kadang-kadang itu akan terlalu kecil, dan kadang-kadang terlalu tinggi. Kita bisa melihat betapa salahnya hal itu dengan melihat variansnya. Vsebuahr( p )=1E(p^)=1nE(X)=npn=pp^ . Simpangan baku adalah akar kuadrat,Var(p^)=1n2Var(X)=np(1p)n2=p(1p)n , dan karena itu memberi kita pemahaman tentang seberapa buruk penaksir kita akan dimatikan (ini secara efektif merupakanakar kuadrat kesalahan, cara menghitung rata-rata kesalahan yang memperlakukan kesalahan positif dan negatif sama buruknya, dengan mengkuadratkan mereka sebelum meratakan ), biasanya disebutkesalahan standar. Aturan praktis yang baik, yang bekerja dengan baik untuk sampel besar dan yang dapat ditangani dengan lebih ketat menggunakanTeorema Batas Pusat yangterkenal, adalah bahwa sebagian besar waktu (sekitar 95%) perkiraan akan salah dengan kurang dari dua kesalahan standar.p(1p)n

Karena muncul dalam penyebut fraksi, nilai yang lebih tinggi dari - sampel yang lebih besar - membuat kesalahan standar lebih kecil. Itu adalah berita bagus, seolah-olah saya ingin kesalahan standar kecil saya hanya membuat ukuran sampel cukup besar. Berita buruknya adalah n berada di dalam akar kuadrat, jadi jika saya melipatgandakan ukuran sampel, saya hanya akan membagi dua kesalahan standar. Kesalahan standar yang sangat kecil akan melibatkan sampel yang sangat besar, karenanya mahal. Ada masalah lain: jika saya ingin menargetkan kesalahan standar tertentu, katakan 1%, maka saya perlu tahu apa nilai p untuk digunakan dalam perhitungan saya. Saya mungkin menggunakan nilai historis jika saya memiliki data polling sebelumnya, tetapi saya ingin mempersiapkan kasus terburuk. Nilai pnnpppaling bermasalah? Grafik adalah instruktif.

grafik sqrt (p (1-p))

p=0.5

p(1p)=pp2=14(p2p+14)=14(p12)2

p12=0p=12

0.25n=0.5n<0.01n>50n>2500

pXin

p=0.5p=0.7p=0.3p(1p)

Grafik ukuran sampel yang diperlukan untuk berbagai kesalahan standar yang diinginkan

Gegat
sumber
skala log10 pada sumbu y dapat membantu di sini.
EngrStudent
7

Aturan "setidaknya 30" dibahas dalam postingan lain di Cross Validated. Ini aturan praktis, paling banter.

Ketika Anda memikirkan sampel yang seharusnya mewakili jutaan orang, Anda harus memiliki sampel yang jauh lebih besar daripada hanya 30. Secara intuitif, 30 orang bahkan tidak dapat memasukkan satu orang dari setiap negara! Kemudian pikirkan bahwa Anda ingin mewakili Partai Republik, Demokrat, dan Independen (setidaknya), dan untuk masing-masing Anda ingin mewakili beberapa kategori usia yang berbeda, dan untuk masing-masing dari mereka beberapa kategori pendapatan yang berbeda.

Dengan hanya 30 orang yang dipanggil, Anda akan kehilangan sebagian besar demografi yang perlu Anda sampel.

EDIT2: [Saya telah menghapus paragraf yang abaumann dan StasK keberatan. Saya masih belum 100% diyakinkan, tetapi terutama argumen StasK yang tidak dapat saya setujui.] Jika 30 orang benar-benar dipilih secara acak dari semua pemilih yang memenuhi syarat, sampel akan valid dalam beberapa hal, tetapi terlalu kecil untuk biarkan Anda membedakan apakah jawaban untuk pertanyaan Anda benar atau salah (di antara semua pemilih yang memenuhi syarat). StasK menjelaskan betapa buruknya komentar ketiga di bawah ini.

EDIT: Sebagai balasan untuk komentar samplesize999, ada metode formal untuk menentukan seberapa besar cukup besar, yang disebut " analisis daya ", yang juga dijelaskan di sini . Komentar abaumann menggambarkan bagaimana ada tradeoff antara kemampuan Anda untuk membedakan perbedaan dan jumlah data yang Anda butuhkan untuk melakukan sejumlah peningkatan. Seperti yang dia ilustrasikan, ada akar kuadrat dalam perhitungan, yang berarti manfaat (dalam hal peningkatan daya) tumbuh lebih lambat, atau biaya (dalam hal berapa banyak sampel yang Anda butuhkan) tumbuh semakin cepat, sehingga Anda ingin sampel yang cukup, tetapi tidak lebih.

Wayne
sumber
2
"Inti dari sampel - ini seluruh validitas - adalah bahwa itu mencerminkan populasi, bukan karena itu acak." Itu benar-benar salah! Validitas (dalam arti generalisasi) berasal persis dari karakter acak dari prosedur pengambilan sampel. Masalahnya adalah karena Anda tertarik pada margin yang sangat kecil, Anda perlu perkiraan yang tepat, sehingga membutuhkan ukuran sampel yang besar.
abaumann
3
@abaumann: Sejauh yang saya mengerti hal-hal, tidak ada keajaiban dalam pengacakan: itu hanya cara paling objektif yang kita miliki untuk membuat sampel yang mencerminkan populasi. Itu sebabnya kami dapat menggunakan pengacakan dalam strata, atau menggunakan stratifikasi dan pembobotan untuk mengimbangi pengacakan yang tidak terlalu bagus.
Wayne
2
sampel: Ini sedikit atau tidak ada hubungannya dengan menjadi "ahli." Misalnya, kandidat presiden AS menjalankan "pelacakan polling" mingguan dan harian selama kampanye mereka dan ini hanya mensurvei sekitar 200-300 orang. Ukuran sampel ini memberikan keseimbangan biaya dan informasi yang memadai. Pada ekstrem lain, studi terkait kesehatan tertentu seperti NHANES mendaftarkan puluhan atau ratusan ribu orang karena itu diperlukan untuk menghasilkan informasi yang dapat ditindaklanjuti dengan nilai sangat tinggi sehingga biaya yang sangat besar dari studi ini menjadi berharga. Dalam kedua kasus, para ahli menentukan ukuran sampel.
whuber
2
Secara teknis, generalisasi akan valid jika sampel mewakili populasi. Idenya adalah bahwa memiliki sampel acak menjamin sampel akan representatif, tetapi ini lebih sulit (tidak selalu mustahil) untuk dicapai jika sampel tidak acak. FWIW, tidak ada polling yang menggunakan simple random sampling.
gung - Reinstate Monica
1
@sashkello, ada jalan tengah: seseorang dapat menggunakan sampel acak bertingkat (pada dasarnya pilihan Anda # 1), atau mencoba mengubah nilai / benchmark sampel sesudahnya. Seperti Gung, saya pikir sebagian besar survei besar melakukan sesuatu yang lebih kompleks daripada sampel acak sederhana
Matt Krause
0

Banyak jawaban bagus telah diposting. Izinkan saya menyarankan pembingkaian berbeda yang menghasilkan respons yang sama, tetapi selanjutnya dapat mendorong intuisi.

halhal

halpBeta(α=1,β=1)p

ppδyδnpBeta(α=1+δy,β=1+δn)

n=δy+δnnqbeta(0.025, n/2, n/2)

n=1067

> qbeta(0.025, 1067/2, 1067/2) [1] 0.470019

yang merupakan hasil yang kami inginkan.

Singkatnya, 1.067 responden yang membagi secara merata antara jawaban "ya" dan "tidak" akan memberi kita kepercayaan 95% bahwa proporsi sebenarnya dari responden "ya" adalah antara 47% dan 53%.

mnn
sumber