Judul Komentar dalam Ilmuwan bangkit melawan signifikansi statistik dimulai dengan:
Valentin Amrhein, Sander Greenland, Blake McShane dan lebih dari 800 penandatangan menyerukan diakhirinya klaim hyped dan pemberhentian kemungkinan efek penting.
dan kemudian berisi pernyataan seperti:
Sekali lagi, kami tidak menganjurkan larangan nilai-nilai P, interval kepercayaan atau langkah-langkah statistik lainnya - hanya saja kita tidak boleh memperlakukannya secara kategoris. Ini termasuk dikotomisasi secara statistik signifikan atau tidak, serta kategorisasi berdasarkan ukuran statistik lain seperti faktor Bayes.
Saya pikir saya dapat memahami bahwa gambar di bawah ini tidak mengatakan bahwa kedua studi tidak setuju karena satu "menyingkirkan" tidak ada efek sementara yang lain tidak. Tetapi artikel itu tampaknya masuk lebih dalam daripada yang bisa saya mengerti.
Menjelang akhir tampaknya ada ringkasan dalam empat poin. Apakah mungkin untuk meringkas ini dalam istilah yang lebih sederhana bagi kita yang membaca statistik daripada menulisnya?
Ketika berbicara tentang interval kompatibilitas, ingatlah empat hal.
Pertama, hanya karena interval memberikan nilai yang paling kompatibel dengan data, mengingat asumsi, itu tidak berarti nilai di luar itu tidak kompatibel; mereka hanya kurang kompatibel ...
Kedua, tidak semua nilai di dalam sama-sama kompatibel dengan data, mengingat asumsi ...
Ketiga, seperti ambang 0,05 dari mana asalnya, standar 95% yang digunakan untuk menghitung interval itu sendiri merupakan konvensi yang arbitrer ...
Terakhir, dan yang paling penting dari semuanya, rendah hati: penilaian kompatibilitas bergantung pada kebenaran asumsi statistik yang digunakan untuk menghitung interval ...
Jawaban:
Tiga poin pertama, sejauh yang saya tahu, adalah variasi pada satu argumen.
Para ilmuwan sering memperlakukan pengukuran ketidakpastian (misalnya ) sebagai distribusi probabilitas yang terlihat seperti ini:12±1
Ketika sebenarnya, mereka lebih cenderung terlihat seperti ini :
Sebagai mantan ahli kimia, saya dapat mengkonfirmasi bahwa banyak ilmuwan dengan latar belakang non-matematika (terutama ahli kimia dan ahli biologi non-fisik) tidak benar-benar memahami bagaimana ketidakpastian (atau kesalahan, demikian mereka menyebutnya) seharusnya bekerja. Mereka ingat suatu waktu dalam fisika tingkat sarjana di mana mereka mungkin harus menggunakannya, bahkan mungkin harus menghitung kesalahan gabungan melalui beberapa pengukuran yang berbeda, tetapi mereka tidak pernah benar - benar memahaminya . Saya juga bersalah akan hal ini, dan mengasumsikan semua pengukuran harus dilakukan dalam interval . Hanya baru-baru ini (dan di luar akademisi), saya mengetahui bahwa pengukuran kesalahan biasanya merujuk pada standar deviasi tertentu, bukan batas absolut.±
Jadi untuk menjabarkan poin bernomor dalam artikel:
Pengukuran di luar CI masih memiliki peluang terjadi, karena kemungkinan (kemungkinan gaussian) yang sebenarnya adalah nol di sana (atau di mana pun dalam hal ini, meskipun mereka menjadi semakin kecil ketika Anda pergi jauh). Jika nilai setelah memang mewakili satu sd, maka masih ada peluang 32% dari titik data berada di luarnya.±
Distribusi tidak seragam (rata atasnya, seperti pada grafik pertama), itu memuncak. Anda lebih cenderung mendapatkan nilai di tengah daripada di tepi. Ini seperti menggulung seikat dadu, bukan satu dadu.
95% adalah cutoff sewenang-wenang, dan bertepatan hampir persis dengan dua standar deviasi.
Poin ini lebih merupakan komentar tentang kejujuran akademik secara umum. Kesadaran yang saya miliki selama PhD adalah bahwa sains bukanlah suatu kekuatan abstrak, itu adalah upaya kumulatif dari orang-orang yang mencoba melakukan sains. Mereka adalah orang-orang yang mencoba menemukan hal-hal baru tentang alam semesta, tetapi pada saat yang sama juga mencoba untuk menjaga anak-anak mereka diberi makan dan mempertahankan pekerjaan mereka, yang sayangnya di zaman modern berarti beberapa bentuk publikasi atau binasa sedang dimainkan. Pada kenyataannya, para ilmuwan bergantung pada penemuan yang benar dan menarik , karena hasil yang tidak menarik tidak menghasilkan publikasi.
Ambang batas sewenang-wenang seperti sering dapat mengabadikan diri sendiri, terutama di antara mereka yang tidak sepenuhnya memahami statistik dan hanya membutuhkan cap lulus / gagal pada hasil mereka. Dengan demikian, orang kadang-kadang setengah bercanda berbicara tentang 'menjalankan tes lagi sampai Anda mendapatkan '. Ini bisa sangat menggoda, terutama jika Ph.D / hibah / pekerjaan naik pada hasil, untuk hasil marjinal ini, bergejolak sampai diinginkan muncul dalam analisis.p<0.05 p<0.05 p=0.0498
Praktik-praktik semacam itu dapat merusak sains secara keseluruhan, terutama jika dilakukan secara luas, semua dalam mengejar angka yang ada di mata alam, tidak ada artinya. Bagian ini pada dasarnya mendorong para ilmuwan untuk jujur tentang data dan pekerjaan mereka, bahkan ketika kejujuran itu merugikan mereka.
sumber
Sebagian besar artikel dan gambar yang Anda masukkan membuat poin yang sangat sederhana:
Sebagai contoh,
Misalkan kita memberi dua tikus dosis sianida dan satu di antaranya mati. Pada kelompok kontrol dua tikus, tidak ada yang mati. Karena ukuran sampel sangat kecil, hasil ini tidak signifikan secara statistik ( ). Jadi percobaan ini tidak menunjukkan efek sianida yang signifikan secara statistik terhadap umur tikus. Haruskah kita menyimpulkan bahwa sianida tidak berpengaruh pada tikus? Tentu saja tidak.p>0.05
Tapi ini adalah kesalahan yang diklaim para penulis secara rutin dilakukan oleh para ilmuwan.
Misalnya pada gambar Anda, garis merah dapat muncul dari penelitian pada tikus yang sangat sedikit, sedangkan garis biru dapat muncul dari penelitian yang sama persis, tetapi pada banyak tikus.
Para penulis menyarankan bahwa, alih-alih menggunakan ukuran efek dan nilai-p, para ilmuwan bukannya menggambarkan berbagai kemungkinan yang lebih atau kurang kompatibel dengan temuan mereka. Dalam percobaan dua mouse kami, kami harus menulis bahwa temuan kami keduanya kompatibel dengan sianida yang sangat beracun, dan dengan itu tidak beracun sama sekali. Dalam percobaan 100 mouse, kami mungkin menemukan rentang interval kepercayaan kematian dengan perkiraan titik[60%,70%] 65% . Maka kita harus menulis bahwa hasil kami akan paling kompatibel dengan asumsi bahwa dosis ini membunuh 65% tikus, tetapi hasil kami juga akan agak kompatibel dengan persentase serendah 60 atau setinggi 70, dan bahwa hasil kami akan kurang kompatibel. dengan kebenaran di luar rentang itu. (Kita juga harus menggambarkan asumsi statistik apa yang kita buat untuk menghitung angka-angka ini.)
sumber
Saya akan mencoba.
sumber
XKCD hebat melakukan kartun ini beberapa waktu lalu, menggambarkan masalahnya. Jika hasil dengan diperlakukan secara sederhana sebagai pembuktian hipotesis - dan terlalu sering - - 1 dari 20 hipotesis yang terbukti benar-benar salah. Demikian pula, jika diambil sebagai menyangkal hipotesis maka 1 dari 20 hipotesis yang benar akan salah ditolak. Nilai-P tidak memberi tahu Anda apakah hipotesis itu benar atau salah, mereka memberi tahu Anda apakah hipotesis itu mungkin benar atau salah. Tampaknya artikel yang direferensikan menendang balik terhadap interpretasi naif yang terlalu umum.P>0.05 P < 0,05P<0.05
sumber
tl; dr - Pada dasarnya tidak mungkin untuk membuktikan bahwa segala sesuatu tidak berhubungan; statistik hanya dapat digunakan untuk menunjukkan ketika hal - halterkait. Terlepas dari kenyataan yang sudah mapan ini, orang sering salah mengartikan kurangnya signifikansi statistik untuk menyiratkan kurangnya hubungan.
Metode enkripsi yang baik harus menghasilkan ciphertext yang, sejauh penyerang tahu, tidak menunjukkan hubungan statistik apa pun dengan pesan yang dilindungi. Karena jika seorang penyerang dapat menentukan semacam hubungan, maka mereka dapat memperoleh informasi tentang pesan Anda yang dilindungi dengan hanya melihat pada ciphertext - yang merupakan Bad Thing TM .
Namun, ciphertext dan plaintext yang sesuai 100% menentukan satu sama lain. Jadi, bahkan jika ahli matematika terbaik di dunia tidak dapat menemukan hubungan yang signifikan tidak peduli seberapa keras mereka berusaha, kita masih jelas tahu bahwa hubungan itu tidak hanya ada di sana, tetapi itu sepenuhnya dan sepenuhnya deterministik. Determinisme ini dapat ada bahkan ketika kita tahu bahwa tidak mungkin untuk menemukan hubungan .
Meskipun demikian, kami masih mendapatkan orang yang akan melakukan hal-hal seperti:
Pilih beberapa hubungan yang mereka ingin " tolak ".
Lakukan beberapa penelitian tentang hal itu yang tidak memadai untuk mendeteksi dugaan hubungan tersebut.
Laporkan kurangnya hubungan yang signifikan secara statistik.
Putar ini menjadi kurangnya hubungan.
Ini mengarah pada segala macam " studi ilmiah " yang media akan (secara salah) laporkan sebagai menyangkal keberadaan suatu hubungan.
Jika Anda ingin merancang studi Anda sendiri tentang ini, ada banyak cara Anda dapat melakukannya:
Penelitian malas:
‘‘'Non-significant' study(high P value)"
Sejauh ini, cara termudah adalah dengan menjadi sangat malas. Seperti halnya dari sosok yang ditautkan dalam pertanyaan: . Anda dapat dengan mudah mendapatkan dengan hanya memiliki ukuran sampel kecil, memungkinkan banyak kebisingan, dan berbagai hal malas lainnya. Bahkan, jika Anda sangat malas untuk tidak kumpulkan data apa pun , maka Anda sudah selesai!
Analisis malas:0
Untuk beberapa alasan konyol, beberapa orang berpikir koefisien korelasi Pearson dari berarti " tidak ada korelasi ". Yang benar, dalam arti yang sangat terbatas. Tapi, ada beberapa kasus yang perlu diperhatikan: . Ini, mungkin tidak ada hubungan " linear ", tetapi jelas ada yang lebih kompleks. Dan itu tidak perlu menjadi " enkripsi " -tingkat kompleks, tetapi " itu sebenarnya hanya sedikit berlekuk " atau " ada dua korelasi " atau apa pun.
Malas menjawab:
Dalam semangat di atas, saya akan berhenti di sini. Untuk, kamu tahu, menjadi malas!
Tapi, serius, artikel itu merangkum dengan baik di:
sumber
Untuk pengantar didaktik untuk masalah ini, Alex Reinhart menulis sebuah buku yang sepenuhnya tersedia online dan diedit di No Starch Press (dengan lebih banyak konten): https://www.statisticsdonewrong.com
Ini menjelaskan akar masalah tanpa matematika canggih dan memiliki bab khusus dengan contoh-contoh dari set data simulasi:
https://www.statisticsdonewrong.com/p-value.html
https://www.statisticsdonewrong.com/regress.html
Di tautan kedua, contoh grafis menggambarkan masalah nilai-p. Nilai-P sering digunakan sebagai indikator tunggal perbedaan statistik antara dataset tetapi jelas tidak cukup dengan sendirinya.
Edit untuk jawaban yang lebih detail:
Dalam banyak kasus, penelitian bertujuan untuk mereproduksi jenis data yang tepat, baik pengukuran fisik (misalnya jumlah partikel dalam akselerator selama percobaan tertentu) atau indikator kuantitatif (seperti jumlah pasien yang mengalami gejala spesifik selama tes obat). Dalam situasi ini, banyak faktor yang dapat mengganggu proses pengukuran seperti kesalahan manusia atau variasi sistem (orang bereaksi berbeda terhadap obat yang sama). Inilah sebabnya mengapa percobaan sering dilakukan ratusan kali jika mungkin dan pengujian obat dilakukan, idealnya, pada kohort ribuan pasien.
Kumpulan data kemudian direduksi menjadi nilai yang paling sederhana menggunakan statistik: mean, standar deviasi, dan sebagainya. Masalah dalam membandingkan model melalui rata-rata mereka adalah bahwa nilai yang diukur hanya indikator dari nilai yang benar, dan juga secara statistik berubah tergantung pada jumlah dan ketepatan pengukuran individu. Kami memiliki cara untuk memberikan perkiraan yang baik tentang tindakan mana yang cenderung sama dan mana yang tidak, tetapi hanya dengan kepastian tertentu. Ambang batas yang biasa adalah untuk mengatakan bahwa jika kita memiliki kurang dari satu dari dua puluh peluang untuk salah mengatakan dua nilai berbeda, kita menganggapnya "berbeda secara statistik" (itulah arti dari ), kalau tidak kita tidak menyimpulkan.P<0.05
Ini mengarah pada kesimpulan aneh yang diilustrasikan dalam artikel Nature di mana dua ukuran yang sama memberikan nilai rata-rata yang sama tetapi kesimpulan peneliti berbeda karena ukuran sampel. Ini, dan hal-hal lain dari kosa kata statistik dan kebiasaan menjadi semakin penting dalam ilmu. Sisi lain dari masalah adalah bahwa orang cenderung lupa bahwa mereka menggunakan alat statistik dan menyimpulkan tentang efek tanpa verifikasi yang tepat dari kekuatan statistik sampel mereka.
Sebagai ilustrasi lain, baru-baru ini ilmu sosial dan kehidupan sedang mengalami krisis replikasi yang sebenarnya karena fakta bahwa banyak efek yang diterima begitu saja oleh orang-orang yang tidak memeriksa kekuatan statistik yang tepat dari studi terkenal (sementara yang lain memalsukan data tapi ini masalah lain).
sumber
Bagi saya, bagian terpenting adalah:
Dengan kata lain: Tempatkan penekanan yang lebih tinggi pada pembahasan perkiraan (interval tengah dan keyakinan), dan penekanan yang lebih rendah pada "pengujian hipotesis nol".
Bagaimana cara kerjanya dalam praktik? Banyak penelitian bermuara pada pengukuran ukuran efek, misalnya "Kami mengukur rasio risiko 1,20, dengan 95% CI mulai dari 0,97 hingga 1,33". Ini adalah ringkasan studi yang cocok. Anda dapat segera melihat ukuran efek yang paling mungkin dan ketidakpastian pengukuran. Dengan menggunakan ringkasan ini, Anda dapat dengan cepat membandingkan studi ini dengan studi lain yang menyukainya, dan idealnya Anda dapat menggabungkan semua temuan dalam rata-rata tertimbang.
Sayangnya, studi tersebut sering diringkas sebagai "Kami tidak menemukan peningkatan yang signifikan secara statistik dari rasio risiko". Ini adalah kesimpulan yang valid dari penelitian di atas. Tetapi ini bukan ringkasan studi yang cocok, karena Anda tidak dapat dengan mudah membandingkan studi menggunakan ringkasan semacam ini. Anda tidak tahu studi mana yang memiliki pengukuran paling tepat, dan Anda tidak bisa melihat seperti apa penemuan sebuah studi-meta. Dan Anda tidak langsung melihat ketika penelitian mengklaim "peningkatan rasio risiko tidak signifikan" dengan memiliki interval kepercayaan yang sangat besar sehingga Anda dapat menyembunyikan seekor gajah di dalamnya.
sumber
Adalah "signifikan" bahwa ahli statistik , bukan hanya ilmuwan, bangkit dan menolak penggunaan " nilai " dan nilai longgar . Masalah terbaru dari The American Statistician didedikasikan sepenuhnya untuk masalah ini. Lihat terutama editorial utama oleh Wasserman, Schirm, dan Lazar.P
sumber
Adalah fakta bahwa karena beberapa alasan, nilai-p memang menjadi masalah.
Namun, terlepas dari kelemahan mereka, mereka memiliki kelebihan penting seperti kesederhanaan dan teori intuitif. Oleh karena itu, sementara secara keseluruhan saya setuju dengan Komentar di Alam , saya berpikir bahwa daripada membuang signifikansi statistik sepenuhnya, diperlukan solusi yang lebih seimbang. Berikut ini beberapa opsi:
1. "Mengubah ambang batas nilai-P untuk signifikansi statistik dari 0,05 menjadi 0,005 untuk klaim penemuan baru". Dalam pandangan saya, Benjamin dkk membahas dengan sangat baik argumen yang paling meyakinkan untuk tidak mengadopsi standar bukti yang lebih tinggi.
2. Mengadopsi nilai- p generasi kedua . Ini tampaknya menjadi solusi yang masuk akal untuk sebagian besar masalah yang mempengaruhi nilai-p klasik . Seperti yang dikatakan Blume et al di sini , nilai-p generasi kedua dapat membantu "meningkatkan kekakuan, reproduksibilitas, & transparansi dalam analisis statistik."
3. Mendefinisikan kembali nilai-p sebagai "ukuran kuantitatif kepastian -" indeks kepercayaan "- bahwa hubungan yang diamati, atau klaim, adalah benar." Ini dapat membantu mengubah sasaran analisis dari mencapai signifikansi hingga memperkirakan keyakinan ini dengan tepat.
Yang penting, "hasil yang tidak mencapai ambang batas untuk signifikansi statistik atau " kepercayaan " (apa pun itu) masih bisa menjadi penting dan pantas dipublikasikan dalam jurnal terkemuka jika mereka menjawab pertanyaan penelitian penting dengan metode yang ketat."
Saya pikir itu bisa membantu mengurangi obsesi dengan nilai-p oleh jurnal terkemuka, yang berada di balik penyalahgunaan nilai-p .
sumber
Satu hal yang belum disebutkan adalah bahwa kesalahan atau signifikansi adalah perkiraan statistik, bukan pengukuran fisik aktual: Mereka sangat bergantung pada data yang Anda miliki dan bagaimana Anda memprosesnya. Anda hanya dapat memberikan nilai kesalahan dan signifikansi yang tepat jika Anda telah mengukur setiap peristiwa yang mungkin terjadi. Ini biasanya tidak demikian, jauh dari itu!
Oleh karena itu, setiap perkiraan kesalahan atau signifikansi, dalam hal ini nilai P apa pun, menurut definisi tidak akurat dan tidak boleh dipercaya untuk menggambarkan penelitian yang mendasarinya - apalagi fenomena! - akurat. Bahkan, tidak boleh dipercaya untuk menyampaikan apa pun tentang hasil TANPA pengetahuan tentang apa yang diwakili, bagaimana kesalahan diperkirakan dan apa yang dilakukan untuk mengontrol kualitas data. Misalnya, salah satu cara untuk mengurangi perkiraan kesalahan adalah dengan menghapus outlier. Jika ini adalah penghapusan juga dilakukan secara statistik, lalu bagaimana Anda bisa benar-benar tahu outlier adalah kesalahan nyata dan bukan pengukuran nyata yang seharusnya dimasukkan dalam kesalahan? Bagaimana mengurangi kesalahan dapat meningkatkan signifikansi hasil? Bagaimana dengan pengukuran yang salah di dekat taksiran? Mereka membaik kesalahan dan dapat berdampak signifikan secara statistik tetapi dapat menyebabkan kesimpulan yang salah!
Untuk itu, saya melakukan pemodelan fisik dan telah membuat model sendiri di mana kesalahan 3-sigma benar-benar tidak fisik. Artinya, secara statistik ada sekitar satu peristiwa dalam seribu (well ... lebih sering dari itu, tapi saya ngelantur) yang akan menghasilkan nilai yang benar-benar konyol. Besarnya 3 kesalahan interval di bidang saya kira-kira setara dengan memiliki estimasi terbaik 1 cm berubah menjadi satu meter setiap sekarang dan kemudian. Namun, ini memang hasil yang diterima ketika memberikan statistik +/- interval dihitung dari data fisik, empiris di bidang saya. Tentu, sempitnya interval ketidakpastian dihormati, tetapi seringkali nilai perkiraan tebakan terbaik lebih bermanfaat bahkan ketika interval kesalahan nominal akan lebih besar.
Sebagai catatan, saya pernah secara pribadi bertanggung jawab atas salah satu dari seribu outlier. Saya sedang dalam proses mengkalibrasi suatu instrumen ketika suatu peristiwa terjadi yang seharusnya kita ukur. Sayangnya, titik data itu akan menjadi salah satu dari 100 outlier lipat, jadi dalam arti tertentu, mereka terjadi dan termasuk dalam kesalahan pemodelan!
sumber