Selama lebih dari satu tahun sekarang saya telah memberikan kelas "mencicipi statistik" selama satu jam. Setiap kali saya mendapatkan sekelompok anak yang berbeda yang datang, dan saya memberi mereka kelas.
Tema kelas ini adalah kami menjalankan percobaan di mana 10 anak-anak (yang suka minum coca-cola) diberi dua cangkir (tanpa tanda), satu dengan coca-cola dan satu dengan pepsi. Anak-anak diminta untuk mendeteksi, berdasarkan rasa dan bau, cangkir mana yang mengandung minuman coca-cola.
Saya kemudian perlu menjelaskan kepada mereka cara memutuskan apakah anak-anak menebak, atau jika mereka (atau setidaknya, cukup banyak dari mereka) benar-benar memiliki kemampuan untuk merasakan perbedaannya. Apakah 10 dari 10 keberhasilan cukup baik? bagaimana dengan 7 dari 10?
Bahkan setelah memberikan kelas ini puluhan kali (dalam variasi yang berbeda), saya masih merasa tidak tahu bagaimana menyampaikan konsep dengan cara yang sebagian besar kelas akan mendapatkannya.
Jika Anda memiliki ide tentang bagaimana konsep pengujian hipotesis, hipotesis nol, hipotesis alternatif, daerah penolakan, dll. Dapat dijelaskan dengan cara yang sederhana (!) Dan intuitif - saya ingin tahu caranya.
sumber
Jawaban:
Saya pikir Anda harus mulai dengan bertanya kepada mereka apa yang mereka pikir benar-benar katakan tentang seseorang bahwa ia mampu membedakan antara coca-cola dan pepsi. Apa yang bisa dilakukan orang semacam itu yang tidak bisa dilakukan orang lain?
Sebagian besar dari mereka tidak akan memiliki definisi seperti itu, dan tidak akan dapat menghasilkan definisi jika diminta. Namun, makna frasa itu adalah apa yang diberikan statistik kepada kami, dan itulah yang dapat Anda bawa dengan kelas "selera statistik" Anda.
Salah satu poin statistik adalah untuk memberikan jawaban yang tepat untuk pertanyaan: "apa artinya mengatakan tentang seseorang bahwa dia mampu membedakan antara coca-cola dan pepsi"
Jawabannya adalah: dia lebih baik daripada mesin menebak untuk mengklasifikasikan cangkir dalam tes buta. Mesin menebak tidak bisa membedakannya, itu hanya menebak sepanjang waktu. Mesin menebak adalah penemuan yang berguna bagi kita karena kita tahu bahwa itu tidak memiliki kemampuan. Hasil dari mesin menebak berguna karena mereka menunjukkan apa yang harus kita harapkan dari seseorang yang tidak memiliki kemampuan yang kita uji.
Untuk menguji apakah seseorang dapat mengetahui perbedaan antara coca-cola dan pepsi, seseorang harus membandingkan klasifikasi cangkirnya dalam tes buta dengan klasifikasi yang dilakukan oleh mesin tebak. Hanya jika dia lebih baik daripada mesin tebak, dia bisa membedakannya.
Lalu, bagaimana Anda menentukan apakah satu hasil lebih baik daripada hasil lainnya? Bagaimana jika mereka hampir sama?
Jika dua orang mengklasifikasikan sejumlah kecil cangkir, tidak benar-benar adil untuk mengatakan bahwa satu lebih baik daripada yang lain jika hasilnya hampir sama. Mungkin pemenang kebetulan beruntung hari ini, dan hasilnya akan terbalik jika kompetisi diulang besok?
Jika kita ingin memiliki hasil yang dapat dipercaya, itu tidak dapat didasarkan pada sejumlah kecil klasifikasi, karena kesempatan dapat memutuskan hasilnya. Ingat, Anda tidak harus sempurna untuk memiliki kemampuan, Anda hanya harus lebih baik daripada mesin menebak. Bahkan, jika jumlah klasifikasi terlalu kecil, bahkan seseorang yang selalu mengidentifikasi coca-cola dengan benar akan dapat menunjukkan bahwa dia lebih baik daripada mesin tebak. Misalnya, jika hanya ada satu cangkir untuk diklasifikasi, bahkan mesin menebak akan memiliki peluang 50 persen untuk mengklasifikasikan sepenuhnya benar. Itu tidak baik, karena itu berarti bahwa dalam 50 persen uji coba, kita akan secara keliru menyimpulkan bahwa pengidentifikasi coca-cola yang baik tidak lebih baik daripada mesin menebak. Sangat tidak adil.
Semakin banyak cangkir yang ada untuk diklasifikasi, semakin banyak peluang untuk ketidakmampuan mesin menebak untuk diungkapkan dan semakin banyak peluang untuk pengidentifikasi coca-cola yang baik untuk dipamerkan.
10 cangkir mungkin merupakan tempat yang baik untuk memulai. Berapa banyak jawaban yang benar yang harus dimiliki manusia untuk menunjukkan bahwa ia lebih baik daripada mesin?
Tanyakan kepada mereka apa yang akan mereka tebak.
Kemudian biarkan mereka menggunakan mesin dan mencari tahu seberapa baik itu, yaitu biarkan semua siswa menghasilkan serangkaian sepuluh tebakan, misalnya. menggunakan dadu atau generator acak di smartphone. Agar pedagogis, Anda harus menyiapkan serangkaian sepuluh jawaban yang benar, yang harus dievaluasi oleh dugaan.
Catat semua hasil di papan tulis. Cetak hasil yang diurutkan di papan tulis. Jelaskan bahwa manusia harus lebih baik dari 95 persen dari hasil itu sebelum ahli statistik mengakui kemampuannya untuk membedakan antara coca-cola dan pepsi. Gambar garis yang memisahkan 95% hasil terburuk dari 5% hasil teratas.
Lalu, biarkan beberapa siswa mencoba mengklasifikasikan 10 gelas. Pada saat ini siswa harus tahu berapa banyak hak yang mereka butuhkan untuk membuktikan bahwa mereka dapat membedakannya.
Semua ini tidak bisa dilakukan dalam 10 menit.
sumber
Bekerja dengan soda terdengar menyenangkan, dan tes apakah remaja benar-benar dapat mengetahui perbedaan antara soda masuk akal setelah Anda memiliki pengetahuan yang wajar tentang pengujian hipotesis. Masalahnya mungkin pertanyaan ini: "bisakah Anda benar-benar membedakan antara soda?" rumit oleh banyak hal lain di benak remaja, seperti "siapa yang baik dan siapa yang buruk dalam menguji soda?", "apakah sebenarnya ada perbedaan antara soda?"
Saya tidak pernah mengajarkan statistik remaja, tapi saya selalu berfantasi tentang menggunakan die yang dimuat, atau koin bias. Mati lebih menarik, tetapi secara statistik lebih menantang. Dengan contoh koin, koin bisa atau tidak adil. Tidak ada gunanya membalik koin. Tidak ada keputusan apakah itu kepala atau ekor.
Jika kita melempar koin untuk siapa yang menang $ 100, dan muncul kepala (Anda menang!), Saya mungkin berkata, "Hei. Bagaimana saya tahu apakah koin itu adil? Saya yakin Anda curang kompetisi!". Anda berkata, "Oh, ya? Buktikan." Solusi yang cukup jelas adalah membalik koin berulang-ulang untuk melihat apakah koin itu muncul lebih banyak daripada ekor. Kami membaliknya, dan muncul kepala. "Ahha! Kataku. Seee! Itu bias terhadap kepala!" Dan seterusnya.
Koin bias yang baik tidak ada, tetapi dadu bias memang ada - Anda dapat membelinya di Amazon. Anda dapat menawarkan hadiah kepada siswa jika mereka dapat memenangkan beberapa daftar. Tapi Anda tahu Anda akan menang. Mereka akan marah. Anda berkata, OK, saya akan memberi Anda hadiah jika Anda dapat membuktikan bahwa dadu ini bias, dengan mengatakan, kepercayaan 95%.
Kemudian beralih ke soda. Hadiahnya bahkan bisa menjadi pesta soda! "Hei, aku bertanya-tanya apakah kalian bisa membedakan antara coke dan pepsi ..."
sumber
Bayangkan seseorang melakukan latihan sasaran dengan senapan, yang menembakkan pelet ke arah laras.
Hipotesis Null: Saya seorang penembak yang baik, dan laras saya tepat sasaran. Bukan kiri, tidak kanan, tapi lurus saja. Kesalahan saya adalah 0.
Hipotesis Alternatif: Saya penembak yang buruk, dan laras saya melenceng. Baru saja kiri atau kanan target. Kesalahan saya adalah e> 0 atau e <0.
Karena pengukuran apa pun memiliki kesalahan rata-rata tertentu (yaitu kesalahan standar), pengukuran yang mengatakan "tidak sesuai target" dimungkinkan, bahkan jika saya memotret dengan lurus. Saya harus tidak "mengenai" target saya (sama sekali, bahkan dengan setiap tembakan menjadi burst / spread) beberapa kali, sebelum Anda dapat memanggil saya penembak yang buruk dan memilih Hipotesis Alternatif.
sumber
Anggaplah anak-anak tidak dapat membedakan dan memutuskan secara kebetulan. Kemudian setiap anak memiliki peluang 50% untuk menebak dengan benar. Jadi Anda mengharapkan (nilai yang diharapkan) bahwa dalam kasus ini, 5 anak melakukannya dengan benar dan 5 anak berbuat salah. Tentu saja, karena kebetulan, mungkin juga 6 anak berbuat salah dan 4 melakukannya dengan benar, dan seterusnya. Di sisi yang berlawanan, bahkan jika anak-anak dapat mengetahui perbedaannya, adalah mungkin, bahwa secara kebetulan salah satu dari mereka salah.
Secara intuitif, jelas, bahwa jika anak-anak menebak secara kebetulan, agak mustahil bahwa semua anak memberikan jawaban yang benar. Dalam hal ini orang lebih suka percaya bahwa anak-anak benar-benar dapat merasakan perbedaan antara kedua minuman. Dengan kata lain, kami tidak mengharapkan peristiwa yang mustahil untuk diamati. Jadi jika kita mengamati suatu peristiwa yang mustahil di bawah scanario 50-50, kita lebih percaya bahwa skenario ini salah dan anak-anak dapat membedakan antara Coke dan Pepsi.
Ini adalah saat di mana Anda melakukan percobaan. Lakukan dengan seksama dengan semua 10 siswa, bahkan jika Anda baru saja menghitung bahwa Anda bisa berhenti setelah kesalahan kedua. Kemudian catat hasilnya dan simpan. Anda akan membutuhkan hasilnya jika Anda ingin menjelaskan meta-analisis kepada mereka.
(Ngomong-ngomong, contoh sejarahnya adalah tentang mencicipi jika susu atau teh telah dituangkan pertama kali ke dalam cangkir. Wanita yang mencicipi teh.)
sumber
Tunjukkan video ini yang merupakan penjelasan paling intuitif dari pengujian hipotesis yang pernah saya lihat - https://www.youtube.com/watch?v=UApFKiK4Hi8
sumber
Eksperimen pencicipan anak-anak casting adalah contoh yang baik untuk memperkenalkan pengujian hipotesis, seperti yang ditunjukkan oleh eksperimen pencicipan teh wanita. Namun, mengevaluasi eksperimen tersebut tidak sangat intuitif karena hipotesis nol melibatkan distribusi binomial dengan p = 0,5, dan tidak langsung.
Dalam pengantar saya yang biasa untuk pengujian hipotesis, saya mencoba untuk mengatasi kelemahan ini dengan menggunakan hanya kasus semua-sukses dalam distribusi binomial, yang probabilitasnya dapat dihitung sebagai p bahkan pada orang-orang yang tidak tahu tentang probabilitas binomial.
Dalam contoh favorit saya, saya suka chestnut panggang dan saya membeli beberapa dari mereka dari pedagang kaki lima. Saya mendapatkannya dengan harga diskon karena mereka berasal dari tas besar di mana 10% dari chestnut memiliki lubang cacing - di sini saya mencoba untuk menjelaskan bahwa tas telah dicampur dengan baik sehingga segelintir chestnut saya adalah sampel acak dari chestnut dalam tas dan pernyataan vendor berarti bahwa setiap kastanye memiliki probabilitas independen 10% memiliki lubang cacing.
Ketika saya mulai menikmati chestnut panggang saya, saya mengambil satu per satu dan memeriksa lubang cacing sebelum memakannya.
Ketika saya memeriksa chestnut pertama, saya melihat lubang cacing, dan saya bertanya-tanya apakah vendor berbohong kepada saya - saya jelaskan di sini bahwa bertanya-tanya itu adalah pengaturan hipotesis nol saya p = 10% dan hipotesis alternatif saya p> 10%, dan saya meletakkan mereka di papan tulis. Apakah saya punya alasan untuk meragukan bahwa p = 10% ketika saya mendapatkan satu chestnut buruk dari satu? Nah, 10% orang yang melakukan percobaan yang sama akan mendapatkan hasil yang sama, jadi saya pikir saya hanya bernasib buruk.
Kemudian, saya mengambil chestnut kedua dan memiliki lubang cacing juga. Dua dari dua memiliki probabilitas hanya 1% jika vendor belum berbohong kepada saya. Saya bisa saja bernasib sangat buruk, tetapi saya sangat curiga pada vendor.
Chestnut ketiga memiliki lubang cacing juga. Mendapatkan tiga chestnut dengan cacing dari tiga tidak akan mustahil dengan asumsi bahwa vendor itu adil dan p = 10%, tetapi itu akan sangat tidak mungkin (probabilitas = 0,1%). Karena itu sekarang saya memiliki alasan kuat untuk meragukan pekerjaan vendor dan saya mengajukan keluhan dan meminta dikembalikan.
Tentu saja, jenis tes berturut-turut ini memiliki beberapa masalah teoretis, tetapi tidak terlalu penting untuk menunjukkan ide tes hipotesis. Faktanya, ide paling penting yang tidak tercakup dalam contoh itu adalah bahwa dalam tes hipotesis kita menghitung probabilitas hasil yang kita dapatkan atau yang lebih buruk - dalam contoh saya ini dihindari dengan hanya mendapatkan hasil terburuk yang mungkin.
Saya telah menggunakan contoh ini beberapa kali dengan mahasiswa baru di universitas - yang masih remaja secara teknis - tetapi saya pikir itu bisa bekerja dengan baik dengan remaja yang lebih muda juga.
sumber