Bagaimana kita bisa mengetahui varians populasi?

10

Dalam pengujian hipotesis, pertanyaan umum adalah apa varians populasi? Pertanyaan saya adalah bagaimana kita bisa mengetahui varians populasi? Jika kita tahu seluruh distribusinya, kita mungkin juga tahu rata - rata dari seluruh populasi. Lalu apa gunanya pengujian hipotesis?

Biologis
sumber
Beberapa literatur yang relevan: nber.org/papers/w20325
dv_bn
Seseorang dapat mengetahui varians tanpa mengetahui apa pun tentang mean. Misalnya, varians dapat dipulihkan dari kuadrat semua perbedaan nilai dalam populasi, tetapi perbedaan itu tidak memberikan informasi tentang rata-rata. Apapun, saya tidak melihat bagaimana pernyataan dan pertanyaan dalam posting ini mengarah ke pertanyaan itu sendiri tentang titik pengujian hipotesis.
whuber

Jawaban:

10

Saya tidak yakin bahwa masalah ini benar-benar muncul "sering" di luar Stats 101 (pengantar statistik). Saya tidak yakin saya pernah melihatnya. Di sisi lain, kami menyajikan materi seperti itu saat mengajar kursus pengantar, karena memberikan perkembangan logis: Anda mulai dengan situasi sederhana di mana hanya ada satu kelompok dan Anda tahu variansnya, kemudian maju ke tempat Anda tidak mengetahui varians, lalu maju ke tempat di mana ada dua kelompok (tetapi dengan varians yang sama), dll.

Untuk membahas poin yang sedikit berbeda, Anda bertanya mengapa kami akan repot dengan pengujian hipotesis jika kami tahu variansnya, karena itu kami juga harus tahu rerata. Bagian terakhir ini masuk akal, tetapi bagian pertama adalah kesalahpahaman: Rata-rata yang akan kita ketahui adalah rata-rata berdasarkan hipotesis nol. Itulah yang kami uji. Perhatikan contoh skor IQ @ StephanKolassa. Kita tahu rata-rata adalah 100 dan standar deviasi adalah 15; apa yang kami uji adalah jika kelompok kami (katakanlah, berambut merah kidal, atau mungkin statistik pengantar siswa) berbeda dari itu.

gung - Pasang kembali Monica
sumber
2
(+1) Mungkin muncul lebih banyak ketika "pengambilan sampel dari populasi" adalah cara berpikir tentang proses menghasilkan data, daripada sesuatu yang harus diambil secara harfiah. Mengetahui ketelitian alat ukur misalnya.
Scortchi
Gung, sebagai seorang praktisi dengan karir 20+ tahun, masalah ini muncul dalam pengalaman saya lebih sering daripada yang Anda maksudkan. Saya tidak menyarankan bahwa itu muncul "sering," hanya saja perdebatan terjadi. Namun, dan untuk poin Anda tentang Stats 101, lebih sering diskusi adalah ikan haring merah yang menyelesaikan sedikit atau tidak sama sekali tentang rincian penelitian atau proyek - seseorang hanya ingin menciptakan penampilan kecerdasan dalam mengajukan pertanyaan.
Mike Hunter
1
@ Johnson, saya kira itu tergantung pada topik yang Anda kerjakan.
gung - Reinstate Monica
4

Seringkali kita tidak mengetahui varians populasi seperti itu - tetapi kami memiliki estimasi yang sangat andal dari sampel yang berbeda. Sebagai contoh, berikut adalah contoh untuk menilai apakah berat rata-rata penguin telah turun, di mana kami menggunakan rata-rata dari sampel kecil, tetapi varians dari sampel independen yang lebih besar. Tentu saja, ini mengandaikan bahwa variansnya sama pada kedua populasi.

Contoh yang berbeda mungkin skala IQ klasik. Ini dinormalisasi untuk memiliki rata-rata 100 dan standar deviasi 15, menggunakan sampel yang sangat besar. Kami kemudian dapat mengambil sampel tertentu (misalnya, 50 berambut merah kidal) dan bertanya apakah IQ rata-rata mereka secara signifikan lebih besar dari 100, menggunakan 15 ^ 2 sebagai varian "dikenal". Tentu saja, sekali lagi, ini menimbulkan pertanyaan apakah varians benar - benar sama antara dua sampel - setelah semua, kami sudah menguji apakah cara berbeda, jadi mengapa varians harus sama?

Intinya: kekhawatiran Anda valid, dan biasanya pengujian dengan momen yang diketahui hanya melayani tujuan didaktik. Dalam kursus statistik, mereka biasanya langsung diikuti dengan tes menggunakan perkiraan momen.

Stephan Kolassa
sumber
2

Satu-satunya cara untuk mengetahui varians populasi adalah dengan mengukur seluruh populasi.

Namun, mengukur seluruh populasi seringkali tidak layak; membutuhkan sumber daya termasuk uang, peralatan, personel, dan akses. Untuk alasan ini, kami mengambil sampel populasi; yaitu mengukur subset dari populasi. Proses pengambilan sampel harus dirancang dengan hati-hati dan dengan tujuan menciptakan populasi sampel yang mewakili populasi; memberikan dua pertimbangan utama - ukuran sampel dan teknik pengambilan sampel.

Contoh mainan: Anda ingin memperkirakan variasi berat untuk populasi dewasa di Swedia. Ada sekitar 9,5 juta orang Swedia sehingga tidak mungkin Anda bisa keluar dan mengukur semuanya. Oleh karena itu Anda perlu mengukur populasi sampel dari mana Anda dapat memperkirakan varians dalam populasi yang benar.

Anda pergi untuk mencicipi populasi Swedia. Untuk melakukan ini, Anda pergi dan berdiri di pusat kota Stockholm, dan kebetulan berdiri tepat di luar rantai burger fiktif Swedia Burger Kungen . Bahkan, hujan dan dingin (pasti musim panas) sehingga Anda berdiri di dalam restoran. Di sini Anda menimbang empat orang.

Kemungkinannya, sampel Anda tidak akan mencerminkan populasi Swedia dengan sangat baik. Apa yang Anda miliki adalah sampel orang-orang di Stockholm, yang berada di restoran burger. Ini adalah teknik pengambilan sampel yang buruk karena kemungkinan bias hasil dengan tidak memberikan representasi yang adil dari populasi yang Anda coba perkirakan. Selain itu, Anda memiliki ukuran sampel yang kecil, jadi Anda memiliki risiko tinggi untuk memilih empat orang yang berada di ekstrem populasi; sangat ringan atau sangat berat. Jika Anda sampel 1000 orang, Anda cenderung menyebabkan bias pengambilan sampel; jauh lebih kecil kemungkinannya untuk memilih 1.000 orang yang tidak biasa daripada memilih empat orang yang tidak biasa. Ukuran sampel yang lebih besar setidaknya akan memberi Anda perkiraan yang lebih akurat tentang rata-rata dan variasi berat di antara para pelanggan Burger Kungen.

masukkan deskripsi gambar di sini

Histogram menggambarkan efek teknik pengambilan sampel, distribusi abu-abu dapat mewakili populasi Swedia yang tidak makan di Burger Kungen (rata-rata 85 kg), sedangkan merah dapat mewakili populasi pelanggan Burger Kungen (rata-rata 100 kg) , dan garis biru bisa menjadi empat orang yang Anda sampel. Teknik pengambilan sampel yang benar perlu untuk menimbang populasi secara adil, dan dalam hal ini ~ 75% dari populasi, dengan demikian 75% dari sampel yang diukur, tidak boleh menjadi pelanggan Burger Kungen.

Ini adalah masalah besar dengan banyak survei. Misalnya, orang yang cenderung menanggapi survei kepuasan pelanggan, atau jajak pendapat dalam pemilihan, cenderung diwakili secara tidak proporsional oleh mereka yang berpandangan ekstrem; orang-orang dengan opini yang kurang kuat cenderung lebih suka mengungkapkannya.

Titik pengujian hipotesis adalah ( tidak selalu ), misalnya, untuk menguji apakah dua populasi berbeda satu sama lain. Misalnya, apakah pelanggan Burger Kungen memiliki berat lebih dari Swedia yang tidak makan di Burger Kungen? Kemampuan untuk menguji ini secara akurat bergantung pada teknik pengambilan sampel yang tepat dan ukuran sampel yang cukup.


Kode R untuk menguji mewujudkan semua ini:

df1 = data.frame(rnorm(9500000, 85, 15), sample(c("Y","N","N","N"), replace = T))
colnames(df1) = c("weight","customer")
df1$weight = ifelse(df1$customer == "Y", df1$weight + rnorm(length(df1$weight[df1$customer =="Y"]), 15, 2), df1$weight)
subsample = sample(df1$weight[df1$customer=="Y"], size = 4)

png(paste0(path,"SwedenWeight.png"), res =1000, width = 4, height = 4, units = "in")
par(mar=c(5,6,2,2))
hist(df1$weight[df1$customer=="N"], xlab = "Kilograms", col = rgb(0,0,0,0.5), main ="")
hist(df1$weight[df1$customer=="Y"], add = T, col = rgb(1,0,0,0.5))
axis(side = 1, at = c(subsample), labels = c("","","",""), tck = -0.03, col = "blue")
axis(side = 1, at = c(0,150), labels = c("",""), tck = -0)
dev.off()

t.test(df1$weight~df1$customer)

Hasil:

> t.test(df1$weight~df1$customer)

        Welch Two Sample t-test

data:  df1$weight by df1$customer
t = -1327.7, df = 4042400, p-value < 2.2e-16
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
 -15.04688 -15.00252
sample estimates:
mean in group N mean in group Y 
       84.99555       100.02024 
rg255
sumber
1

Terkadang varians populasi ditetapkan secara apriori . Misalnya, skor SAT diskalakan sehingga standar deviasi adalah 110 dan tes IQ diskalakan untuk memiliki standar deviasi 15 .

TrynnaDoStat
sumber
Ya, itu benar, tetapi dalam kasus-kasus itu ada juga penskalaan ke mean tetap, jadi itu tidak menghasilkan situasi di mana ada rata-rata yang tidak diketahui dan varian yang diketahui. Juga, penskalaan dilakukan setelah semua nilai diketahui.
Ben - Reinstate Monica
1

Satu-satunya contoh realistis yang dapat saya pikirkan ketika mean tidak diketahui tetapi varians diketahui adalah ketika ada pengambilan sampel acak poin pada hypersphere (dalam dimensi apa pun) dengan jari-jari tetap dan pusat tidak diketahui. Masalah ini memiliki rata-rata yang tidak diketahui (pusat bola) tetapi varian tetap (jari-jari kuadrat bola). Saya tidak mengetahui contoh realistis lainnya di mana ada varian yang tidak diketahui tetapi diketahui. (Dan untuk menjadi jelas: hanya memiliki estimasi varians luar dari data lain bukan merupakan contoh varians yang dikenal. Juga, jika Anda memiliki estimasi varians ini dari data lain, mengapa Anda tidak juga memiliki estimasi rata-rata yang sesuai dari data yang sama data?)

Dalam pandangan saya, kursus statistik pengantar yang mengajarkan tes dengan mean yang tidak diketahui dan varian yang dikenal adalah anakronisme, dan mereka salah arah sebagai alat pengajaran modern. Secara pedagogis, jauh lebih baik untuk memulai langsung dengan uji-T untuk kasus rerata dan varians yang tidak diketahui, dan memperlakukan uji-z sebagai perkiraan asimptotik terhadap ini yang berlaku ketika derajat kebebasannya besar (atau tidak bahkan repot-repot mengajarkan z-test sama sekali). Jumlah situasi di mana akan ada varian yang diketahui tetapi rata-rata yang tidak diketahui semakin kecil, dan umumnya menyesatkan siswa untuk memperkenalkan kasus ini (sangat jarang).

Ben - Pasang kembali Monica
sumber
0

Kadang-kadang dalam masalah terapan, ada alasan yang diajukan oleh fisika, ekonomi, dll yang memberi tahu kita tentang varians dan tidak memiliki ketidakpastian. Di lain waktu, populasi mungkin terbatas dan kita mungkin mengetahui beberapa hal tentang semua orang, tetapi perlu mengambil sampel dan melakukan statistik untuk mempelajari sisanya.

Secara umum, kekhawatiran Anda cukup valid.

Mustafa S Eisa
sumber
5
Saya mengalami kesulitan membayangkan contoh dari fisika atau ekonomi di mana kita akan tahu variansnya, tetapi bukan berarti. Mirip untuk distribusi diskrit. Bisakah Anda memberikan satu atau dua contoh nyata?
Stephan Kolassa
@StephanKolassa Saya percaya bahwa pengukuran eksperimental fisika akan menjadi contoh - kita mungkin memiliki proses atau perangkat pengukuran yang memiliki varian terkenal (kesalahan pengukuran), jadi ketika mengukur peristiwa tertentu maka Anda dapat mengasumsikan varians itu sama tetapi Anda hanya dapat memperkirakan nilai sebenarnya.
Peteris
2
@Peteris: itu masuk akal - tetapi kedengarannya lebih seperti kasus yang saya perhatikan , dari varians (instrumen Anda) yang telah diperkirakan pada "sampel kalibrasi" sebelumnya. Saya berharap varian yang diturunkan secara teoritis tanpa ketidakpastian (!) Menjadi hal yang berbeda.
Stephan Kolassa