Bagaimana menjelaskan pengujian hipotesis untuk remaja dalam waktu kurang dari 10 menit?

18

Selama lebih dari satu tahun sekarang saya telah memberikan kelas "mencicipi statistik" selama satu jam. Setiap kali saya mendapatkan sekelompok anak yang berbeda yang datang, dan saya memberi mereka kelas.

Tema kelas ini adalah kami menjalankan percobaan di mana 10 anak-anak (yang suka minum coca-cola) diberi dua cangkir (tanpa tanda), satu dengan coca-cola dan satu dengan pepsi. Anak-anak diminta untuk mendeteksi, berdasarkan rasa dan bau, cangkir mana yang mengandung minuman coca-cola.

Saya kemudian perlu menjelaskan kepada mereka cara memutuskan apakah anak-anak menebak, atau jika mereka (atau setidaknya, cukup banyak dari mereka) benar-benar memiliki kemampuan untuk merasakan perbedaannya. Apakah 10 dari 10 keberhasilan cukup baik? bagaimana dengan 7 dari 10?

Bahkan setelah memberikan kelas ini puluhan kali (dalam variasi yang berbeda), saya masih merasa tidak tahu bagaimana menyampaikan konsep dengan cara yang sebagian besar kelas akan mendapatkannya.

Jika Anda memiliki ide tentang bagaimana konsep pengujian hipotesis, hipotesis nol, hipotesis alternatif, daerah penolakan, dll. Dapat dijelaskan dengan cara yang sederhana (!) Dan intuitif - saya ingin tahu caranya.

Tal Galili
sumber
1
Terkadang memikirkan "mengapa" membantu untuk mendapatkan pemahaman yang lebih baik tentang "bagaimana", sehingga Anda dapat memeriksa stats.stackexchange.com/questions/6966/…
Tim
5
(+1) Saya kira itu tergantung pada definisi Anda 10 menit !
kardinal
1
Beberapa minggu yang lalu saya mengambil kesempatan untuk menjawab pertanyaan ini - atau setidaknya satu sangat menyukainya - di stats.stackexchange.com/a/130772 . Bukankah itu utas duplikat dari yang ini?
whuber
1
@ kardinal - Maksud saya 10 menit. Untuk jenis topik ini, dan untuk orang-orang tanpa latar belakang - ini SANGAT singkat. --------------- Whuber yang terkasih - Saya menyukai jawaban Anda, tetapi akan bagus bagi siswa mengetahui apa itu probabilitas dan hubungan antara kepadatan dan luas. Ini adalah konsep yang diajarkan kepada siswa, tetapi tidak untuk siswa sekolah menengah. Saya tidak ingin mereka sepenuhnya memahami pengujian hipotesis, tetapi untuk mencukupinya sehingga mereka dapat merasakannya dalam membuat keputusan tentang apa arti setiap wilayah penolakan.
Tal Galili
4
Terima kasih atas klarifikasi, Tal. Tampaknya Anda masih menunjukkan bahwa utas lainnya adalah duplikat dari pertanyaan Anda, tetapi Anda belum melihat jawaban yang memadai di sana. Cara yang baik untuk membedakan pertanyaan Anda dari yang satu adalah dengan memberikan persyaratan spesifik tentang tingkat eksposisi dan apa yang dapat kita asumsikan diketahui oleh audiens, seperti yang sudah Anda lakukan dalam komentar Anda.
whuber

Jawaban:

10

Saya pikir Anda harus mulai dengan bertanya kepada mereka apa yang mereka pikir benar-benar katakan tentang seseorang bahwa ia mampu membedakan antara coca-cola dan pepsi. Apa yang bisa dilakukan orang semacam itu yang tidak bisa dilakukan orang lain?

Sebagian besar dari mereka tidak akan memiliki definisi seperti itu, dan tidak akan dapat menghasilkan definisi jika diminta. Namun, makna frasa itu adalah apa yang diberikan statistik kepada kami, dan itulah yang dapat Anda bawa dengan kelas "selera statistik" Anda.

Salah satu poin statistik adalah untuk memberikan jawaban yang tepat untuk pertanyaan: "apa artinya mengatakan tentang seseorang bahwa dia mampu membedakan antara coca-cola dan pepsi"

Jawabannya adalah: dia lebih baik daripada mesin menebak untuk mengklasifikasikan cangkir dalam tes buta. Mesin menebak tidak bisa membedakannya, itu hanya menebak sepanjang waktu. Mesin menebak adalah penemuan yang berguna bagi kita karena kita tahu bahwa itu tidak memiliki kemampuan. Hasil dari mesin menebak berguna karena mereka menunjukkan apa yang harus kita harapkan dari seseorang yang tidak memiliki kemampuan yang kita uji.

Untuk menguji apakah seseorang dapat mengetahui perbedaan antara coca-cola dan pepsi, seseorang harus membandingkan klasifikasi cangkirnya dalam tes buta dengan klasifikasi yang dilakukan oleh mesin tebak. Hanya jika dia lebih baik daripada mesin tebak, dia bisa membedakannya.

Lalu, bagaimana Anda menentukan apakah satu hasil lebih baik daripada hasil lainnya? Bagaimana jika mereka hampir sama?

Jika dua orang mengklasifikasikan sejumlah kecil cangkir, tidak benar-benar adil untuk mengatakan bahwa satu lebih baik daripada yang lain jika hasilnya hampir sama. Mungkin pemenang kebetulan beruntung hari ini, dan hasilnya akan terbalik jika kompetisi diulang besok?

Jika kita ingin memiliki hasil yang dapat dipercaya, itu tidak dapat didasarkan pada sejumlah kecil klasifikasi, karena kesempatan dapat memutuskan hasilnya. Ingat, Anda tidak harus sempurna untuk memiliki kemampuan, Anda hanya harus lebih baik daripada mesin menebak. Bahkan, jika jumlah klasifikasi terlalu kecil, bahkan seseorang yang selalu mengidentifikasi coca-cola dengan benar akan dapat menunjukkan bahwa dia lebih baik daripada mesin tebak. Misalnya, jika hanya ada satu cangkir untuk diklasifikasi, bahkan mesin menebak akan memiliki peluang 50 persen untuk mengklasifikasikan sepenuhnya benar. Itu tidak baik, karena itu berarti bahwa dalam 50 persen uji coba, kita akan secara keliru menyimpulkan bahwa pengidentifikasi coca-cola yang baik tidak lebih baik daripada mesin menebak. Sangat tidak adil.

Semakin banyak cangkir yang ada untuk diklasifikasi, semakin banyak peluang untuk ketidakmampuan mesin menebak untuk diungkapkan dan semakin banyak peluang untuk pengidentifikasi coca-cola yang baik untuk dipamerkan.

10 cangkir mungkin merupakan tempat yang baik untuk memulai. Berapa banyak jawaban yang benar yang harus dimiliki manusia untuk menunjukkan bahwa ia lebih baik daripada mesin?

Tanyakan kepada mereka apa yang akan mereka tebak.

Kemudian biarkan mereka menggunakan mesin dan mencari tahu seberapa baik itu, yaitu biarkan semua siswa menghasilkan serangkaian sepuluh tebakan, misalnya. menggunakan dadu atau generator acak di smartphone. Agar pedagogis, Anda harus menyiapkan serangkaian sepuluh jawaban yang benar, yang harus dievaluasi oleh dugaan.

Catat semua hasil di papan tulis. Cetak hasil yang diurutkan di papan tulis. Jelaskan bahwa manusia harus lebih baik dari 95 persen dari hasil itu sebelum ahli statistik mengakui kemampuannya untuk membedakan antara coca-cola dan pepsi. Gambar garis yang memisahkan 95% hasil terburuk dari 5% hasil teratas.

Lalu, biarkan beberapa siswa mencoba mengklasifikasikan 10 gelas. Pada saat ini siswa harus tahu berapa banyak hak yang mereka butuhkan untuk membuktikan bahwa mereka dapat membedakannya.

Semua ini tidak bisa dilakukan dalam 10 menit.

Hans Ekbrand
sumber
2
Terima kasih Hans. Saya suka jawaban Anda karena beberapa alasan. 1) Karena Anda membawa ide baru ke meja "meminta anak-anak bersaing dengan mesin menebak". Saya akui pikiran itu terlintas di benak saya, tetapi jawaban Anda memperkuat pendapat saya bahwa ini mungkin bekerja lebih baik daripada membuat mereka bersaing dengan distribusi teoritis dari hipotesis nol p = .5. 2) Karena Anda mengerti bahwa tidak semua yang Anda usulkan dapat dilakukan dalam 10 menit :)
Tal Galili
2
Terima kasih, Tal. a) Saya pikir mesin menebak jauh lebih intuitif daripada distribusi teoretis. b) Saya harap Anda dapat menyediakan lebih dari 10 menit untuk pengujian hipotesis.
Hans Ekbrand
Kenapa 95%, ha ha?
Mark L. Stone
2

Bekerja dengan soda terdengar menyenangkan, dan tes apakah remaja benar-benar dapat mengetahui perbedaan antara soda masuk akal setelah Anda memiliki pengetahuan yang wajar tentang pengujian hipotesis. Masalahnya mungkin pertanyaan ini: "bisakah Anda benar-benar membedakan antara soda?" rumit oleh banyak hal lain di benak remaja, seperti "siapa yang baik dan siapa yang buruk dalam menguji soda?", "apakah sebenarnya ada perbedaan antara soda?"

Saya tidak pernah mengajarkan statistik remaja, tapi saya selalu berfantasi tentang menggunakan die yang dimuat, atau koin bias. Mati lebih menarik, tetapi secara statistik lebih menantang. Dengan contoh koin, koin bisa atau tidak adil. Tidak ada gunanya membalik koin. Tidak ada keputusan apakah itu kepala atau ekor.

Jika kita melempar koin untuk siapa yang menang $ 100, dan muncul kepala (Anda menang!), Saya mungkin berkata, "Hei. Bagaimana saya tahu apakah koin itu adil? Saya yakin Anda curang kompetisi!". Anda berkata, "Oh, ya? Buktikan." Solusi yang cukup jelas adalah membalik koin berulang-ulang untuk melihat apakah koin itu muncul lebih banyak daripada ekor. Kami membaliknya, dan muncul kepala. "Ahha! Kataku. Seee! Itu bias terhadap kepala!" Dan seterusnya.

Koin bias yang baik tidak ada, tetapi dadu bias memang ada - Anda dapat membelinya di Amazon. Anda dapat menawarkan hadiah kepada siswa jika mereka dapat memenangkan beberapa daftar. Tapi Anda tahu Anda akan menang. Mereka akan marah. Anda berkata, OK, saya akan memberi Anda hadiah jika Anda dapat membuktikan bahwa dadu ini bias, dengan mengatakan, kepercayaan 95%.

Kemudian beralih ke soda. Hadiahnya bahkan bisa menjadi pesta soda! "Hei, aku bertanya-tanya apakah kalian bisa membedakan antara coke dan pepsi ..."

tim.farkas
sumber
6
" Tidak ada gunanya membalik koin. " - Setelah menyaksikan Persi Diaconis sesuka hati, saya pikir mungkin ada.
Glen_b -Reinstate Monica
Ha. sekarang saya akan mencoba untuk menjadi ahli!
tim.farkas
1
Diaconis adalah ahli statistik dan pesulap. Ada beberapa video dia menunjukkannya (membalik kepala ketika dia mau) di youtube.
Glen_b -Reinstate Monica
Hai Tim. Anda membawa poin yang bagus, tetapi mereka tidak menjawab pertanyaan saya secara langsung. Mengingat bahwa siswa Anda mendapat x dari 10 tes dengan benar (tes memilih merek yang tepat, berdasarkan rasa) - bagaimana Anda bisa menjelaskan mengapa Anda memutuskan mereka baik / buruk dengan membuat keputusan itu?
Tal Galili
Sekali lagi Anda dapat menggunakan membalik koin. Jika mereka melakukan satu rasa dan melakukannya dengan benar, itu tidak terlalu meyakinkan, karena jika Anda melempar koin, itu harus "benar" 50% dari waktu! jika Anda melakukannya dengan benar dua kali, kemungkinan untuk mendapatkannya secara kebetulan sama dengan membalik dua kepala = .5 * .5 = .25. 3 kali berturut-turut adalah .125, 4 adalah .0625, 5 adalah .0313. Anda harus memilih tingkat kepercayaan yang Anda inginkan. apakah 50% cukup yakin? bagaimana dengan 25%? R. Fisher mengatakan 95% cukup baik, dan itulah yang digunakan banyak ilmuwan. Ini secara teknis disebut uji tanda. Lihat di bawah.
tim.farkas
2

Bayangkan seseorang melakukan latihan sasaran dengan senapan, yang menembakkan pelet ke arah laras.

Hipotesis Null: Saya seorang penembak yang baik, dan laras saya tepat sasaran. Bukan kiri, tidak kanan, tapi lurus saja. Kesalahan saya adalah 0.

Hipotesis Alternatif: Saya penembak yang buruk, dan laras saya melenceng. Baru saja kiri atau kanan target. Kesalahan saya adalah e> 0 atau e <0.

Karena pengukuran apa pun memiliki kesalahan rata-rata tertentu (yaitu kesalahan standar), pengukuran yang mengatakan "tidak sesuai target" dimungkinkan, bahkan jika saya memotret dengan lurus. Saya harus tidak "mengenai" target saya (sama sekali, bahkan dengan setiap tembakan menjadi burst / spread) beberapa kali, sebelum Anda dapat memanggil saya penembak yang buruk dan memilih Hipotesis Alternatif.

maurice
sumber
1
Selamat Datang di CV. Bisakah Anda menghubungkan penjelasan Anda dengan nol dan alternatif? Mungkin beberapa diskusi tambahan dapat membantu memotivasi ini. Ada juga beberapa nulls dan alternatif yang penjelasan ini tidak cocok untuk Anda, Anda mungkin perlu menyebutkan jenis hipotesis yang akan menjadi penjelasan yang cocok untuk (misalnya point-null, two-tailed)
Glen_b -Reinstate Monica
1

Anggaplah anak-anak tidak dapat membedakan dan memutuskan secara kebetulan. Kemudian setiap anak memiliki peluang 50% untuk menebak dengan benar. Jadi Anda mengharapkan (nilai yang diharapkan) bahwa dalam kasus ini, 5 anak melakukannya dengan benar dan 5 anak berbuat salah. Tentu saja, karena kebetulan, mungkin juga 6 anak berbuat salah dan 4 melakukannya dengan benar, dan seterusnya. Di sisi yang berlawanan, bahkan jika anak-anak dapat mengetahui perbedaannya, adalah mungkin, bahwa secara kebetulan salah satu dari mereka salah.

Secara intuitif, jelas, bahwa jika anak-anak menebak secara kebetulan, agak mustahil bahwa semua anak memberikan jawaban yang benar. Dalam hal ini orang lebih suka percaya bahwa anak-anak benar-benar dapat merasakan perbedaan antara kedua minuman. Dengan kata lain, kami tidak mengharapkan peristiwa yang mustahil untuk diamati. Jadi jika kita mengamati suatu peristiwa yang mustahil di bawah scanario 50-50, kita lebih percaya bahwa skenario ini salah dan anak-anak dapat membedakan antara Coke dan Pepsi.

αα0.00098αα=0.05

P(all kids guess it right)=0.00098P(only one kid confuses Coke with Pepsi)=0.01074P(only two kids confuse)=0,05468

Ini adalah saat di mana Anda melakukan percobaan. Lakukan dengan seksama dengan semua 10 siswa, bahkan jika Anda baru saja menghitung bahwa Anda bisa berhenti setelah kesalahan kedua. Kemudian catat hasilnya dan simpan. Anda akan membutuhkan hasilnya jika Anda ingin menjelaskan meta-analisis kepada mereka.

(Ngomong-ngomong, contoh sejarahnya adalah tentang mencicipi jika susu atau teh telah dituangkan pertama kali ke dalam cangkir. Wanita yang mencicipi teh.)

Horst Grünbusch
sumber
0

Eksperimen pencicipan anak-anak casting adalah contoh yang baik untuk memperkenalkan pengujian hipotesis, seperti yang ditunjukkan oleh eksperimen pencicipan teh wanita. Namun, mengevaluasi eksperimen tersebut tidak sangat intuitif karena hipotesis nol melibatkan distribusi binomial dengan p = 0,5, dan tidak langsung.

Dalam pengantar saya yang biasa untuk pengujian hipotesis, saya mencoba untuk mengatasi kelemahan ini dengan menggunakan hanya kasus semua-sukses dalam distribusi binomial, yang probabilitasnya dapat dihitung sebagai p bahkan pada orang-orang yang tidak tahu tentang probabilitas binomial.

Dalam contoh favorit saya, saya suka chestnut panggang dan saya membeli beberapa dari mereka dari pedagang kaki lima. Saya mendapatkannya dengan harga diskon karena mereka berasal dari tas besar di mana 10% dari chestnut memiliki lubang cacing - di sini saya mencoba untuk menjelaskan bahwa tas telah dicampur dengan baik sehingga segelintir chestnut saya adalah sampel acak dari chestnut dalam tas dan pernyataan vendor berarti bahwa setiap kastanye memiliki probabilitas independen 10% memiliki lubang cacing.

Ketika saya mulai menikmati chestnut panggang saya, saya mengambil satu per satu dan memeriksa lubang cacing sebelum memakannya.

Ketika saya memeriksa chestnut pertama, saya melihat lubang cacing, dan saya bertanya-tanya apakah vendor berbohong kepada saya - saya jelaskan di sini bahwa bertanya-tanya itu adalah pengaturan hipotesis nol saya p = 10% dan hipotesis alternatif saya p> 10%, dan saya meletakkan mereka di papan tulis. Apakah saya punya alasan untuk meragukan bahwa p = 10% ketika saya mendapatkan satu chestnut buruk dari satu? Nah, 10% orang yang melakukan percobaan yang sama akan mendapatkan hasil yang sama, jadi saya pikir saya hanya bernasib buruk.

Kemudian, saya mengambil chestnut kedua dan memiliki lubang cacing juga. Dua dari dua memiliki probabilitas hanya 1% jika vendor belum berbohong kepada saya. Saya bisa saja bernasib sangat buruk, tetapi saya sangat curiga pada vendor.

Chestnut ketiga memiliki lubang cacing juga. Mendapatkan tiga chestnut dengan cacing dari tiga tidak akan mustahil dengan asumsi bahwa vendor itu adil dan p = 10%, tetapi itu akan sangat tidak mungkin (probabilitas = 0,1%). Karena itu sekarang saya memiliki alasan kuat untuk meragukan pekerjaan vendor dan saya mengajukan keluhan dan meminta dikembalikan.

Tentu saja, jenis tes berturut-turut ini memiliki beberapa masalah teoretis, tetapi tidak terlalu penting untuk menunjukkan ide tes hipotesis. Faktanya, ide paling penting yang tidak tercakup dalam contoh itu adalah bahwa dalam tes hipotesis kita menghitung probabilitas hasil yang kita dapatkan atau yang lebih buruk - dalam contoh saya ini dihindari dengan hanya mendapatkan hasil terburuk yang mungkin.

Saya telah menggunakan contoh ini beberapa kali dengan mahasiswa baru di universitas - yang masih remaja secara teknis - tetapi saya pikir itu bisa bekerja dengan baik dengan remaja yang lebih muda juga.

Pere
sumber