Asal “5

33

Laporan berita mengatakan bahwa CERN akan mengumumkan besok bahwa boson Higgs telah secara eksperimental terdeteksi dengan 5 σ bukti. Menurut artikel itu:

5 σ setara dengan 99.99994% peluang bahwa data yang dilihat oleh detektor CMS dan ATLAS bukan hanya derau acak - dan peluang 0,00006% bahwa mereka telah ditipu; 5 σ adalah kepastian yang diperlukan untuk sesuatu yang secara resmi diberi label "penemuan" ilmiah.

Ini tidak super ketat, tetapi tampaknya mengatakan bahwa fisikawan menggunakan metodologi statistik "pengujian hipotesis" standar, pengaturan α menjadi 0.0000006 , yang sesuai dengan z=5 (dua sisi)? Atau adakah arti lain?

Dalam banyak ilmu pengetahuan, tentu saja, pengaturan alpha ke 0,05 dilakukan secara rutin. Ini akan setara dengan bukti "dua σ ", meskipun saya belum pernah mendengarnya disebut demikian. Apakah ada bidang lain (selain fisika partikel) di mana definisi alfa yang jauh lebih ketat adalah standar? Adakah yang tahu referensi tentang bagaimana aturan lima σ diterima oleh fisika partikel?

Pembaruan: Saya mengajukan pertanyaan ini karena alasan sederhana. Buku saya Intuitif Biostatistik (seperti kebanyakan buku statistik) memiliki bagian yang menjelaskan bagaimana sewenang-wenang aturan "P <0,05" yang biasa. Saya ingin menambahkan contoh bidang ilmiah ini di mana nilai jauh lebih kecil αdianggap perlu. Tetapi jika contohnya sebenarnya lebih rumit, dengan menggunakan metode Bayesian (seperti beberapa komentar di bawah ini sarankan), maka itu tidak akan terlalu tepat atau akan membutuhkan banyak penjelasan lebih lanjut.

Harvey Motulsky
sumber
2
Pernah mendengar tentang "Six Sigma" ?
Daniel R Hicks
Dalam kontrol kualitas, enam sigma dianggap seperti yang disarankan Daniel dengan pertanyaan / komentarnya. Probabilitas penolakan ini semuanya mengasumsikan pengambilan sampel dari distribusi normal dan probabilitas ekor bisa lebih besar untuk distribusi lainnya. Menggunakan ekstrem seperti 5 atau 6 sigma hanya berguna dalam situasi khusus. Dalam prakteknya ukuran sampel dan variabilitas dalam data membuat kesimpulan di luar 2 atau 3 sigma tidak layak.
Michael R. Chernick
1
Pada dasarnya, sebagian besar fisikawan partikel lebih nyaman dengan ide bayesian ketika menghitung parameter, sehingga mereka sebenarnya " yakin, mengingat data dan prior, bahwa sinyal Higgs tidak nol", yang tentu berbeda dengan mengatakan bahwa ada hanya "kemungkinan 0,01 persen dari sinyal menjadi noise acak" (ada fluktuasi non-acak yang muncul dari sistematika juga!). [1]: physics.stackexchange.com/questions/8752/…X%
Néstor
3
@ Néstor: Saya menonton siaran langsung konferensi pers Higgs sekarang, dan tidak ada yang menyebutkan interpretasi Bayesian. "nilai-p" dan "tingkat signifikansi" digunakan, tetapi hanya Bayesian yang salah informasi akan menafsirkannya sebagai probabilitas bahwa sinyalnya acak. Saya berpikir bahwa teks dalam kutipan dalam pertanyaan OP adalah interpretasi yang salah tentang apa sebenarnya nilai-p.
MånsT
1
BTW Saya melakukan posting blog di blog saya tentang masalah ini: randomastronomy.wordpress.com .
Néstor

Jawaban:

13

Di sebagian besar aplikasi statistik ada yang berangan tua tentang 'semua model salah, ada yang berguna'. Karena itu, kami hanya akan mengharapkan model untuk tampil pada tingkat tertentu karena kami menggambarkan beberapa proses yang sangat rumit menggunakan beberapa model sederhana.

Fisika sangat berbeda, jadi intuisi yang dikembangkan dari model statistik tidak begitu tepat. Dalam Fisika, khususnya fisika partikel yang berhubungan langsung dengan hukum-hukum fisika fundamental, model tersebut seharusnya merupakan deskripsi yang tepat dari kenyataan. Setiap penyimpangan dari apa yang diprediksi oleh model harus sepenuhnya dijelaskan oleh kebisingan eksperimental, bukan batasan dari model. Ini berarti bahwa jika modelnya baik dan benar dan peralatan eksperimental memahami signifikansi statistik harus sangat tinggi, maka bilah tinggi yang ditetapkan.

Alasan lainnya adalah historis, komunitas fisika partikel telah dibakar di masa lalu oleh 'penemuan' pada tingkat signifikansi yang lebih rendah yang kemudian ditarik, oleh karena itu mereka umumnya lebih berhati-hati sekarang.

Bogdanovist
sumber
1
Apakah Anda setuju bahwa fisika menggunakan pengujian hipotesis statistik standar dengan alfa yang sangat rendah (dalam hal ini, bagaimanapun). Atau apakah mereka menggunakan semacam pendekatan Bayesian seperti yang Nestor katakan dalam komentar di atas?
Harvey Motulsky
2
Pemahaman saya dari berbicara dengan beberapa orang yang saya kenal yang bekerja pada ATLAS adalah bahwa analisisnya sangat Bayesian. Namun mereka adalah orang-orang level bawah (yaitu mereka yang benar-benar melakukan pekerjaan). Tidak akan mengejutkan saya jika beberapa kepala yang berbicara di atas rantai memiliki pemahaman interpretasi yang lebih buruk. Yang sedang berkata, presentasi hasil LHC sangat buruk, dan tidak benar-benar terlihat seperti Bayesian, seperti yang orang lain catat.
Bogdanovist
2
Saya selalu berpikir bahwa fisika partikel pada khususnya juga berurusan dengan miliaran peristiwa, jadi Anda harus mengatur bar sangat tinggi.
Wayne
11

Sejarah dan asal

Menurut Robert D Cousins 1 dan Tommaso Dorigo 2 , asal usul ambang 5 σ terletak pada pekerjaan fisika partikel awal tahun 60-an ketika banyak histogram percobaan hamburan diselidiki dan dicari puncak / benjolan yang mungkin mengindikasikan beberapa partikel yang baru ditemukan. . Ambang adalah aturan kasar untuk menjelaskan beberapa perbandingan yang sedang dibuat.125σ

Kedua penulis merujuk pada artikel tahun 1968 dari Rosenfeld 3 , yang membahas pertanyaan apakah ada meson dan baryon yang jauh atau tidak, dimana beberapa 4 σ34σ efek diukur. Artikel itu menjawab pertanyaan negatif dengan menyatakan bahwa jumlah klaim yang diterbitkan sesuai dengan jumlah fluktuasi yang diperkirakan secara statistik. Seiring dengan beberapa perhitungan yang mendukung argumen ini, artikel ini mempromosikan penggunaan level 5σ :

Rosenfeld: "Sebelum kita melanjutkan survei jauh-out spektrum massa di mana benjolan telah dilaporkan di (Kππ)3/2,(πρ) kita harus terlebih dahulu memutuskan apa ambang signifikansi permintaan pada tahun 1968. Saya ingin menunjukkan bahwa meskipun eksperimentalis mungkin harus diperhatikan 3σ -effects, teori dan fenomenologis akan lebih baik untuk menunggu sampai efek mencapai >4σ ."

dan kemudian di koran (penekanan adalah milikku)

Rosenfeld: "Maka untuk mengulangi peringatan saya di awal bagian ini; kami menghasilkan setidaknya 100 000 potensi gundukan per tahun, dan akan mengharapkan beberapa fluktuasi 4σ dan ratusan 3σ . Apa implikasinya? Untuk ahli teori atau fenomenologis moral sederhana, tunggu 5σ efek σ . "

Tommaso tampaknya berhati-hati dalam menyatakan bahwa itu dimulai dengan artikel Rosenfeld

Tommaso: "Namun, kita harus mencatat bahwa artikel itu ditulis pada tahun 1968, tetapi kriteria ketat dari lima standar deviasi untuk klaim penemuan tidak diadopsi pada tahun tujuh puluhan dan delapan puluhan. Misalnya, tidak ada yang namanya kriteria lima sigma yang digunakan. untuk penemuan bos W dan Z, yang menghasilkan Hadiah Nobel dalam bidang fisika untuk Rubbia dan Van der Meer pada tahun 1984. "

Tetapi pada tahun 80-an penggunaan 5σ tersebar. Misalnya, astronom Steve Schneider 4 menyebutkan pada 1989 bahwa itu adalah sesuatu yang diajarkan (tekankan saya dalam kutipan di bawah):4

Schneider: "Seringkali, 'tingkat kepercayaan' dari 95% atau 99% dikutip untuk data yang tampaknya berbeda, tetapi ini hanya berjumlah dua atau tiga sigma statistik. Saya diajari untuk tidak mempercayai apa pun yang kurang dari lima sigma , yang jika Anda pikirkan tentang itu adalah persyaratan ketat yang tidak masuk akal --- sesuatu seperti tingkat kepercayaan 99,9999% Tapi tentu saja, batas seperti itu digunakan karena ukuran sebenarnya dari sigma hampir tidak pernah diketahui .. Ada terlalu banyak variabel bebas dalam astronomi yang kita dapat dapat mengontrol atau tidak tahu tentang. "

4σ5σ5 )

Franklin: Pada tahun 2003 kriteria 5-standar-deviasi untuk "pengamatan" tampaknya telah berlaku

...

Seorang anggota kolaborasi BaBar mengenang bahwa kali ini kriteria 5-sigma dikeluarkan sebagai pedoman oleh para editor Physical Review Letters.


Penggunaan modern

5σ67

Z=55σ2.87×107

5σ

  • 5σ3σ4σ

  • 5σ

  • σσσ6σ

  • 5σ

5σ8,912


Bidang Lainnya

Sangat menarik untuk dicatat bahwa banyak bidang ilmiah lainnya tidak memiliki ambang yang sama atau tidak, entah bagaimana, menangani masalah ini. Saya membayangkan ini masuk akal dalam kasus percobaan dengan manusia di mana sangat mahal (atau tidak mungkin) untuk memperluas percobaan yang memberikan signifikansi 0,05 atau 0,01.

1011


  1. Cousins, RD (2017). Paradoks Jeffreys-Lindley dan kriteria penemuan dalam fisika energi tinggi. Synthese, 194 (2), 395-432. tautan arxiv

  2. Dorigo, T. (2013) Demystifying The Five-Sigma Criterion, dari science20.com 2019-03-07

  3. Rosenfeld, AH (1968). Apakah ada meson atau baryon yang jauh? web-source: escholarship

  4. Burbidge, G., Roberts, M., Schneider, S., Sharp, N., & Tifft, W. (1990, November). Diskusi panel: Masalah terkait pergeseran merah. Dalam Publikasi Konferensi NASA (Vol. 3098, hlm. 462). tautan ke fotokopi di harvard.edu

  5. Franklin, A. (2013). Pergeseran standar: Eksperimen dalam fisika partikel di abad kedua puluh. University of Pittsburgh Press.

  6. Apa arti dari 5 sigma? dari physics.org 2019-03-07

  7. Beringer, J., Arguin, JF, Barnett, RM, Copic, K., Dahl, O., Groom, DE, ... & Yao, WM (2012). Ulasan fisika partikel. Tinjauan Fisik Partikel-D, Bidang, Gravitasi dan Kosmologi, 86 (1), 010001. (bagian 36.2.2. Uji signifikansi, halaman 394, tautan aps.org )

  8. Lyons, L. (2013). Menemukan Signifikansi 5 sigma. arXiv preprint arXiv: 1310.1284. tautan arxiv

  9. Lyons, L. (2014). Masalah Statistik dalam Pencarian Fisika Baru. arXiv pracetak tautan arxiv

  10. Baker, M. (2015). Lebih dari setengah studi psikologi gagal dalam tes reproduktifitas. Berita Alam. dari nature.com 2019-03-07

  11. Horton, R. (2015). Offline: apa itu 5 sigma obat? The Lancet, 385 (9976), 1380. dari thelancet.com 2019-03-07

Sextus Empiricus
sumber
4

Untuk alasan yang sama sekali berbeda dari fisika, ada bidang lain dengan alfa yang jauh lebih ketat ketika mereka melakukan pengujian hipotesis. Epidemiologi Genetik ada di antara mereka, terutama ketika mereka menggunakan "GWAS" (Genome-Wide Association Study) untuk melihat berbagai penanda genetik untuk penyakit.

Karena studi GWAS adalah latihan besar - besaran dalam pengujian hipotesis berganda, teknik-teknik analisis mutakhir semuanya dibangun di sekitar alfa yang jauh lebih ketat daripada 0,05. Teknik studi "kandidat skrining" lainnya yang mengikuti studi genomik kemungkinan akan melakukan hal yang sama.

Fomite
sumber
2
Ini hanya lokal kecil αs. GWAS masih memiliki kesalahan tipe I keseluruhan 5% karena mengklaim kesuksesan yang sebenarnya tidak ada.
Horst Grünbusch