Dalam pengujian hipotesis, pertanyaan umum adalah apa varians populasi? Pertanyaan saya adalah bagaimana kita bisa mengetahui varians populasi? Jika kita tahu seluruh distribusinya, kita mungkin juga tahu rata - rata dari seluruh populasi. Lalu apa gunanya pengujian hipotesis?
hypothesis-testing
variance
t-test
z-test
Biologis
sumber
sumber
Jawaban:
Saya tidak yakin bahwa masalah ini benar-benar muncul "sering" di luar Stats 101 (pengantar statistik). Saya tidak yakin saya pernah melihatnya. Di sisi lain, kami menyajikan materi seperti itu saat mengajar kursus pengantar, karena memberikan perkembangan logis: Anda mulai dengan situasi sederhana di mana hanya ada satu kelompok dan Anda tahu variansnya, kemudian maju ke tempat Anda tidak mengetahui varians, lalu maju ke tempat di mana ada dua kelompok (tetapi dengan varians yang sama), dll.
Untuk membahas poin yang sedikit berbeda, Anda bertanya mengapa kami akan repot dengan pengujian hipotesis jika kami tahu variansnya, karena itu kami juga harus tahu rerata. Bagian terakhir ini masuk akal, tetapi bagian pertama adalah kesalahpahaman: Rata-rata yang akan kita ketahui adalah rata-rata berdasarkan hipotesis nol. Itulah yang kami uji. Perhatikan contoh skor IQ @ StephanKolassa. Kita tahu rata-rata adalah 100 dan standar deviasi adalah 15; apa yang kami uji adalah jika kelompok kami (katakanlah, berambut merah kidal, atau mungkin statistik pengantar siswa) berbeda dari itu.
sumber
Seringkali kita tidak mengetahui varians populasi seperti itu - tetapi kami memiliki estimasi yang sangat andal dari sampel yang berbeda. Sebagai contoh, berikut adalah contoh untuk menilai apakah berat rata-rata penguin telah turun, di mana kami menggunakan rata-rata dari sampel kecil, tetapi varians dari sampel independen yang lebih besar. Tentu saja, ini mengandaikan bahwa variansnya sama pada kedua populasi.
Contoh yang berbeda mungkin skala IQ klasik. Ini dinormalisasi untuk memiliki rata-rata 100 dan standar deviasi 15, menggunakan sampel yang sangat besar. Kami kemudian dapat mengambil sampel tertentu (misalnya, 50 berambut merah kidal) dan bertanya apakah IQ rata-rata mereka secara signifikan lebih besar dari 100, menggunakan 15 ^ 2 sebagai varian "dikenal". Tentu saja, sekali lagi, ini menimbulkan pertanyaan apakah varians benar - benar sama antara dua sampel - setelah semua, kami sudah menguji apakah cara berbeda, jadi mengapa varians harus sama?
Intinya: kekhawatiran Anda valid, dan biasanya pengujian dengan momen yang diketahui hanya melayani tujuan didaktik. Dalam kursus statistik, mereka biasanya langsung diikuti dengan tes menggunakan perkiraan momen.
sumber
Satu-satunya cara untuk mengetahui varians populasi adalah dengan mengukur seluruh populasi.
Namun, mengukur seluruh populasi seringkali tidak layak; membutuhkan sumber daya termasuk uang, peralatan, personel, dan akses. Untuk alasan ini, kami mengambil sampel populasi; yaitu mengukur subset dari populasi. Proses pengambilan sampel harus dirancang dengan hati-hati dan dengan tujuan menciptakan populasi sampel yang mewakili populasi; memberikan dua pertimbangan utama - ukuran sampel dan teknik pengambilan sampel.
Contoh mainan: Anda ingin memperkirakan variasi berat untuk populasi dewasa di Swedia. Ada sekitar 9,5 juta orang Swedia sehingga tidak mungkin Anda bisa keluar dan mengukur semuanya. Oleh karena itu Anda perlu mengukur populasi sampel dari mana Anda dapat memperkirakan varians dalam populasi yang benar.
Anda pergi untuk mencicipi populasi Swedia. Untuk melakukan ini, Anda pergi dan berdiri di pusat kota Stockholm, dan kebetulan berdiri tepat di luar rantai burger fiktif Swedia Burger Kungen . Bahkan, hujan dan dingin (pasti musim panas) sehingga Anda berdiri di dalam restoran. Di sini Anda menimbang empat orang.
Kemungkinannya, sampel Anda tidak akan mencerminkan populasi Swedia dengan sangat baik. Apa yang Anda miliki adalah sampel orang-orang di Stockholm, yang berada di restoran burger. Ini adalah teknik pengambilan sampel yang buruk karena kemungkinan bias hasil dengan tidak memberikan representasi yang adil dari populasi yang Anda coba perkirakan. Selain itu, Anda memiliki ukuran sampel yang kecil, jadi Anda memiliki risiko tinggi untuk memilih empat orang yang berada di ekstrem populasi; sangat ringan atau sangat berat. Jika Anda sampel 1000 orang, Anda cenderung menyebabkan bias pengambilan sampel; jauh lebih kecil kemungkinannya untuk memilih 1.000 orang yang tidak biasa daripada memilih empat orang yang tidak biasa. Ukuran sampel yang lebih besar setidaknya akan memberi Anda perkiraan yang lebih akurat tentang rata-rata dan variasi berat di antara para pelanggan Burger Kungen.
Histogram menggambarkan efek teknik pengambilan sampel, distribusi abu-abu dapat mewakili populasi Swedia yang tidak makan di Burger Kungen (rata-rata 85 kg), sedangkan merah dapat mewakili populasi pelanggan Burger Kungen (rata-rata 100 kg) , dan garis biru bisa menjadi empat orang yang Anda sampel. Teknik pengambilan sampel yang benar perlu untuk menimbang populasi secara adil, dan dalam hal ini ~ 75% dari populasi, dengan demikian 75% dari sampel yang diukur, tidak boleh menjadi pelanggan Burger Kungen.
Ini adalah masalah besar dengan banyak survei. Misalnya, orang yang cenderung menanggapi survei kepuasan pelanggan, atau jajak pendapat dalam pemilihan, cenderung diwakili secara tidak proporsional oleh mereka yang berpandangan ekstrem; orang-orang dengan opini yang kurang kuat cenderung lebih suka mengungkapkannya.
Titik pengujian hipotesis adalah ( tidak selalu ), misalnya, untuk menguji apakah dua populasi berbeda satu sama lain. Misalnya, apakah pelanggan Burger Kungen memiliki berat lebih dari Swedia yang tidak makan di Burger Kungen? Kemampuan untuk menguji ini secara akurat bergantung pada teknik pengambilan sampel yang tepat dan ukuran sampel yang cukup.
Kode R untuk menguji mewujudkan semua ini:
Hasil:
sumber
Terkadang varians populasi ditetapkan secara apriori . Misalnya, skor SAT diskalakan sehingga standar deviasi adalah 110 dan tes IQ diskalakan untuk memiliki standar deviasi 15 .
sumber
Satu-satunya contoh realistis yang dapat saya pikirkan ketika mean tidak diketahui tetapi varians diketahui adalah ketika ada pengambilan sampel acak poin pada hypersphere (dalam dimensi apa pun) dengan jari-jari tetap dan pusat tidak diketahui. Masalah ini memiliki rata-rata yang tidak diketahui (pusat bola) tetapi varian tetap (jari-jari kuadrat bola). Saya tidak mengetahui contoh realistis lainnya di mana ada varian yang tidak diketahui tetapi diketahui. (Dan untuk menjadi jelas: hanya memiliki estimasi varians luar dari data lain bukan merupakan contoh varians yang dikenal. Juga, jika Anda memiliki estimasi varians ini dari data lain, mengapa Anda tidak juga memiliki estimasi rata-rata yang sesuai dari data yang sama data?)
Dalam pandangan saya, kursus statistik pengantar yang mengajarkan tes dengan mean yang tidak diketahui dan varian yang dikenal adalah anakronisme, dan mereka salah arah sebagai alat pengajaran modern. Secara pedagogis, jauh lebih baik untuk memulai langsung dengan uji-T untuk kasus rerata dan varians yang tidak diketahui, dan memperlakukan uji-z sebagai perkiraan asimptotik terhadap ini yang berlaku ketika derajat kebebasannya besar (atau tidak bahkan repot-repot mengajarkan z-test sama sekali). Jumlah situasi di mana akan ada varian yang diketahui tetapi rata-rata yang tidak diketahui semakin kecil, dan umumnya menyesatkan siswa untuk memperkenalkan kasus ini (sangat jarang).
sumber
Kadang-kadang dalam masalah terapan, ada alasan yang diajukan oleh fisika, ekonomi, dll yang memberi tahu kita tentang varians dan tidak memiliki ketidakpastian. Di lain waktu, populasi mungkin terbatas dan kita mungkin mengetahui beberapa hal tentang semua orang, tetapi perlu mengambil sampel dan melakukan statistik untuk mempelajari sisanya.
Secara umum, kekhawatiran Anda cukup valid.
sumber