Jelaskan komik jelly bean xkcd: Apa yang membuatnya lucu?

60

Saya melihat bahwa satu waktu dari dua puluh keseluruhan tes yang mereka jalankan, , sehingga mereka keliru menganggap bahwa selama salah satu dari dua puluh tes, hasilnya adalah signifikan ( 0,05 = 1 / 20 ).p<0.050.05=1/20

xkcd jelly bean comic - "Significant"

  • Judul: Signifikan
  • Arahkan kursor: "'Jadi, eh, kami melakukan penelitian hijau lagi dan tidak memiliki tautan. Itu mungkin ...' 'PENELITIAN YANG KONFLIK PADA KACANG HIJAU JELLY / LINK ACNE; LEBIH BELAJAR DIREKOMENDASIKAN!'"

xkcd comic 882 - "Significant"

DJG
sumber
8
Kepercayaan 95% berarti bahwa rata-rata dalam 5% percobaan (satu dari 20) kita akan mendapatkan kesimpulan yang berlawanan. Persis seperti yang terjadi di sini. Yaitu, jika Anda juga melakukan percobaan yang sama dengan jeli kacang oranye 1000 kali, ~ 50 di antaranya akan memberikan hasil positif. :)
sashkello
19
Siapa bilang itu lucu?
whuber
3
funniness>0funniness<0(p<.05)
4
Lihat juga diskusi ini di menjelaskanxkcd.com
Jeromy Anglim
3
@ Glen_b, utas kartun analisis data favorit tepat CW, namun, saya tidak melihat alasan yang satu ini seharusnya. Di samping 'Kenapa lucu', pertanyaan itu meminta pemahaman tentang titik statistik yang dipermasalahkan dalam kartun, yang memiliki jawaban & harus sesuai topik & bukan-CW (& yang saya pikir Anda tangani dengan baik di bawah).
gung - Reinstate Monica

Jawaban:

69

Humor adalah hal yang sangat pribadi - beberapa orang akan menganggapnya lucu, tetapi mungkin tidak lucu bagi semua orang - dan upaya untuk menjelaskan apa yang membuat sesuatu yang lucu sering gagal menyampaikan yang lucu, bahkan jika mereka menjelaskan poin yang mendasarinya. Memang tidak semua xkcd bahkan dimaksudkan untuk menjadi benar-benar lucu. Namun, banyak yang membuat poin-poin penting dengan cara yang merangsang pemikiran, dan paling tidak terkadang mereka lucu saat melakukan itu. (Secara pribadi saya menganggapnya lucu, tetapi saya merasa sulit untuk menjelaskan dengan jelas apa, tepatnya, membuatnya lucu bagi saya. Saya pikir sebagian adalah pengakuan atas cara bahwa hasil yang meragukan, atau bahkan meragukan berubah menjadi sirkus media ( di mana lihat juga komik PhD ini ), dan mungkin sebagian pengakuan atas cara beberapa penelitian sebenarnya dapat dilakukan - jika biasanya tidak secara sadar.)

Namun, orang dapat menghargai poin apakah itu menggelitik tulang lucu Anda.

n1n

Dalam komik, Randall menggambarkan 20 tes, jadi ini tidak diragukan lagi maksudnya (bahwa Anda berharap untuk mendapatkan satu yang signifikan bahkan ketika tidak ada yang terjadi). Artikel surat kabar fiksi bahkan menekankan masalah dengan subjudul "Hanya 5% kemungkinan kebetulan!". (Jika satu tes yang berakhir di koran adalah satu-satunya yang dilakukan, itu mungkin masalahnya.)


Tentu saja, ada juga masalah yang lebih halus bahwa seorang peneliti perorangan mungkin berperilaku jauh lebih masuk akal, tetapi masalah maraknya publikasi positif palsu masih terjadi. Katakanlah para peneliti ini hanya melakukan 5 tes, masing-masing pada level 1%, sehingga peluang keseluruhan mereka untuk menemukan hasil palsu seperti itu hanya sekitar lima persen.

Sejauh ini bagus. Tapi sekarang bayangkan ada 20 kelompok penelitian seperti itu, masing-masing menguji warna acak yang mereka pikir punya alasan untuk dicoba. Atau 100 kelompok riset ... peluang utama seperti apa di komik sekarang?

Jadi, secara lebih luas, komik ini mungkin merujuk bias publikasi secara lebih umum. Jika hanya hasil signifikan terompet, kita tidak akan mendengar tentang lusinan kelompok yang tidak menemukan apa-apa untuk ubur-ubur hijau, hanya yang berhasil.

Memang, itulah salah satu poin utama yang dibuat dalam artikel ini , yang telah menjadi berita dalam beberapa bulan terakhir ( misalnya di sini , meskipun ini adalah artikel 2005).

Sebuah respon terhadap artikel yang menekankan kebutuhan untuk replikasi. Perhatikan bahwa jika ada beberapa ulangan dari penelitian yang diterbitkan, hasil "Jelly hijau yang dikaitkan dengan jerawat" akan sangat tidak mungkin bertahan.

(Dan memang, teks hover untuk komik membuat referensi yang cerdik ke titik yang sama.)

Glen_b
sumber
12

Efek pengujian hipotesis pada keputusan untuk mempublikasikan telah dijelaskan lebih dari lima puluh tahun yang lalu dalam makalah JASA tahun 1959, Keputusan Publikasi dan Kemungkinan Efeknya pada Kesimpulan yang Diambil dari Tes Signifikansi - atau sebaliknya (mohon maaf untuk paywall).

Tinjauan Makalah Makalah ini menunjukkan bukti bahwa hasil yang dipublikasikan dari makalah ilmiah bukan sampel yang representatif dari hasil dari semua studi. Penulis mengulas makalah yang diterbitkan dalam empat jurnal psikologi utama. 97% dari makalah yang ditinjau melaporkan hasil yang signifikan secara statistik untuk hipotesis ilmiah utama mereka.

Penulis mengajukan penjelasan yang mungkin untuk pengamatan ini: bahwa penelitian yang menghasilkan hasil tidak signifikan tidak dipublikasikan. Penelitian semacam itu yang tidak diketahui oleh peneliti lain dapat diulangi secara independen sampai akhirnya secara kebetulan terjadi hasil yang signifikan (kesalahan Tipe 1) dan dipublikasikan. Ini membuka pintu bagi kemungkinan bahwa literatur ilmiah yang diterbitkan dapat mencakup representasi yang berlebihan dari hasil yang salah yang dihasilkan dari kesalahan Tipe 1 dalam uji signifikansi statistik - persis skenario di mana komik XKCD asli mengolok-olok.

Pengamatan umum ini telah diverifikasi dan ditemukan kembali beberapa kali pada tahun-tahun berikutnya. Saya percaya bahwa makalah JASA 1959 adalah yang pertama untuk memajukan hipotesis. Penulis makalah itu adalah penyelia PhD saya. Kami memperbarui makalahnya tahun 1959 35 tahun kemudian dan mencapai kesimpulan yang sama. Keputusan Publikasi Revisited: Pengaruh Hasil Tes Statistik pada Keputusan untuk Menerbitkan dan sebaliknya. Ahli Statistik Amerika, Vol 49, No. 1, Februari 1995

Wilf Rosenbaum
sumber
Tentu - saya mengedit jawaban saya di atas untuk memasukkan ikhtisar makalah.
Wilf Rosenbaum
Terkait: en.wikipedia.org/wiki/Half-life_of_knowledge
kjetil b halvorsen
-2

Apa yang orang abaikan adalah bahwa nilai p sebenarnya untuk kasing jelly bean hijau bukanlah 0,05 tetapi sekitar 0,64. Hanya nilai-p berpura-pura (nominal) adalah 0,05. Ada perbedaan antara nilai-p aktual dan pura-pura. Probabilitas menemukan 1 dalam 20 yang mencapai tingkat nominal bahkan jika semua nol adalah BUKAN .05, tetapi .64. Di sisi lain, jika Anda menilai bukti yang melihat kemungkinan komparatif — pandangan yang paling populer selain dari statistik kesalahan (di mana nilai-p berada) Anda AKAN mengatakan ada bukti untuk H: kacang jeli hijau benar-benar berkorelasi dengan jerawat. Itu karena P (x; tidak ada efek) <P (x; H). Sisi kiri adalah <0,05, sedangkan sisi kanan cukup tinggi: jika kacang hijau jelly memang menyebabkan jerawat maka kemungkinan menemukan hubungan yang diamati. Kemungkinan saja gagal untuk mengambil probabilitas kesalahan karena mereka mengkondisikan pada data aktual yang diperoleh. Tidak ada perbedaan dalam penilaian dibandingkan jika hanya ada satu tes ini dari kacang hijau dan jerawat. Jadi, walaupun kartun ini sering dianggap mengolok-olok nilai-p, hal yang lucu tentang itu menunjukkan mengapa kita perlu mempertimbangkan probabilitas kesalahan keseluruhan (seperti nilai p non-pura-pura) dan bukan hanya kemungkinan. Kesimpulan Bayesian juga dikondisikan pada hasilnya, mengabaikan probabilitas kesalahan. Satu-satunya cara untuk menghindari menemukan bukti untuk H, untuk Bayesian adalah memiliki yang rendah di H. Tapi kami akan menyesuaikan nilai p tidak peduli apa masalah subjek, dan tanpa bergantung pada prior, karena prosedur berburu yang digunakan untuk menemukan hipotesis untuk diuji. Bahkan jika H yang diburu itu bisa dipercaya, itu Masih merupakan tes yang buruk. Errorstatistics.com

pengguna48784
sumber
2
Sangat sulit untuk mengatakan dengan tepat apa yang ingin disampaikan oleh pos ini. Biarkan saya fokus pada satu bagian, berharap klarifikasi dapat mengungkapkan arti sisanya: persis apa yang Anda maksud dengan "probabilitas kesalahan keseluruhan"?
whuber
2
@whuber Saya percaya bahwa postingan ini merujuk pada beberapa masalah perbandingan.
Matt