Apa yang dimaksud "Ilmuwan bangkit melawan signifikansi statistik"? (Komentar di Alam)

61

Judul Komentar dalam Ilmuwan bangkit melawan signifikansi statistik dimulai dengan:

Valentin Amrhein, Sander Greenland, Blake McShane dan lebih dari 800 penandatangan menyerukan diakhirinya klaim hyped dan pemberhentian kemungkinan efek penting.

dan kemudian berisi pernyataan seperti:

Sekali lagi, kami tidak menganjurkan larangan nilai-nilai P, interval kepercayaan atau langkah-langkah statistik lainnya - hanya saja kita tidak boleh memperlakukannya secara kategoris. Ini termasuk dikotomisasi secara statistik signifikan atau tidak, serta kategorisasi berdasarkan ukuran statistik lain seperti faktor Bayes.

Saya pikir saya dapat memahami bahwa gambar di bawah ini tidak mengatakan bahwa kedua studi tidak setuju karena satu "menyingkirkan" tidak ada efek sementara yang lain tidak. Tetapi artikel itu tampaknya masuk lebih dalam daripada yang bisa saya mengerti.

Menjelang akhir tampaknya ada ringkasan dalam empat poin. Apakah mungkin untuk meringkas ini dalam istilah yang lebih sederhana bagi kita yang membaca statistik daripada menulisnya?

Ketika berbicara tentang interval kompatibilitas, ingatlah empat hal.

  • Pertama, hanya karena interval memberikan nilai yang paling kompatibel dengan data, mengingat asumsi, itu tidak berarti nilai di luar itu tidak kompatibel; mereka hanya kurang kompatibel ...

  • Kedua, tidak semua nilai di dalam sama-sama kompatibel dengan data, mengingat asumsi ...

  • Ketiga, seperti ambang 0,05 dari mana asalnya, standar 95% yang digunakan untuk menghitung interval itu sendiri merupakan konvensi yang arbitrer ...

  • Terakhir, dan yang paling penting dari semuanya, rendah hati: penilaian kompatibilitas bergantung pada kebenaran asumsi statistik yang digunakan untuk menghitung interval ...


Alam: Ilmuwan bangkit melawan signifikansi statistik

uh oh
sumber
13
Pada dasarnya, mereka ingin mengisi makalah penelitian dengan positif palsu yang bahkan lebih banyak lagi!
David
12
Lihat diskusi di blog Gelman: statmodeling.stat.columbia.edu/2019/03/20/… . Jelas artikel tersebut memunculkan beberapa poin yang valid, tetapi lihat komentar yang diajukan oleh Ioannidis terhadap artikel ini (dan juga, secara terpisah, menentang aspek "petisi" itu), seperti dikutip oleh Gelman.
Amuba mengatakan Reinstate Monica
3
Ini bukan konsep baru. Meta-analisis telah menjadi bagian yang lebih baik selama 50 tahun, dan Cochrane telah melakukan meta-analisis studi medis / perawatan kesehatan (di mana lebih mudah untuk menstandarisasi tujuan dan hasil) selama 25 tahun terakhir.
Graham
4
Pada dasarnya masalahnya adalah berusaha mengurangi "ketidakpastian" yang merupakan masalah multidimensi menjadi satu angka.
MaxW
4
Pada dasarnya jika orang menyatakan "kami tidak menemukan bukti hubungan antara X dan Y" bukannya "X dan Y tidak terkait" ketika menemukan artikel ini kemungkinan tidak akan ada. p>α
Firebug

Jawaban:

65

Tiga poin pertama, sejauh yang saya tahu, adalah variasi pada satu argumen.

Para ilmuwan sering memperlakukan pengukuran ketidakpastian (misalnya ) sebagai distribusi probabilitas yang terlihat seperti ini:12±1

distribusi probabilitas yang seragam

Ketika sebenarnya, mereka lebih cenderung terlihat seperti ini : masukkan deskripsi gambar di sini

Sebagai mantan ahli kimia, saya dapat mengkonfirmasi bahwa banyak ilmuwan dengan latar belakang non-matematika (terutama ahli kimia dan ahli biologi non-fisik) tidak benar-benar memahami bagaimana ketidakpastian (atau kesalahan, demikian mereka menyebutnya) seharusnya bekerja. Mereka ingat suatu waktu dalam fisika tingkat sarjana di mana mereka mungkin harus menggunakannya, bahkan mungkin harus menghitung kesalahan gabungan melalui beberapa pengukuran yang berbeda, tetapi mereka tidak pernah benar - benar memahaminya . Saya juga bersalah akan hal ini, dan mengasumsikan semua pengukuran harus dilakukan dalam interval . Hanya baru-baru ini (dan di luar akademisi), saya mengetahui bahwa pengukuran kesalahan biasanya merujuk pada standar deviasi tertentu, bukan batas absolut.±

Jadi untuk menjabarkan poin bernomor dalam artikel:

  1. Pengukuran di luar CI masih memiliki peluang terjadi, karena kemungkinan (kemungkinan gaussian) yang sebenarnya adalah nol di sana (atau di mana pun dalam hal ini, meskipun mereka menjadi semakin kecil ketika Anda pergi jauh). Jika nilai setelah memang mewakili satu sd, maka masih ada peluang 32% dari titik data berada di luarnya.±

  2. Distribusi tidak seragam (rata atasnya, seperti pada grafik pertama), itu memuncak. Anda lebih cenderung mendapatkan nilai di tengah daripada di tepi. Ini seperti menggulung seikat dadu, bukan satu dadu.

  3. 95% adalah cutoff sewenang-wenang, dan bertepatan hampir persis dengan dua standar deviasi.

  4. Poin ini lebih merupakan komentar tentang kejujuran akademik secara umum. Kesadaran yang saya miliki selama PhD adalah bahwa sains bukanlah suatu kekuatan abstrak, itu adalah upaya kumulatif dari orang-orang yang mencoba melakukan sains. Mereka adalah orang-orang yang mencoba menemukan hal-hal baru tentang alam semesta, tetapi pada saat yang sama juga mencoba untuk menjaga anak-anak mereka diberi makan dan mempertahankan pekerjaan mereka, yang sayangnya di zaman modern berarti beberapa bentuk publikasi atau binasa sedang dimainkan. Pada kenyataannya, para ilmuwan bergantung pada penemuan yang benar dan menarik , karena hasil yang tidak menarik tidak menghasilkan publikasi.

Ambang batas sewenang-wenang seperti sering dapat mengabadikan diri sendiri, terutama di antara mereka yang tidak sepenuhnya memahami statistik dan hanya membutuhkan cap lulus / gagal pada hasil mereka. Dengan demikian, orang kadang-kadang setengah bercanda berbicara tentang 'menjalankan tes lagi sampai Anda mendapatkan '. Ini bisa sangat menggoda, terutama jika Ph.D / hibah / pekerjaan naik pada hasil, untuk hasil marjinal ini, bergejolak sampai diinginkan muncul dalam analisis.p<0.05p<0.05p=0.0498

Praktik-praktik semacam itu dapat merusak sains secara keseluruhan, terutama jika dilakukan secara luas, semua dalam mengejar angka yang ada di mata alam, tidak ada artinya. Bagian ini pada dasarnya mendorong para ilmuwan untuk jujur ​​tentang data dan pekerjaan mereka, bahkan ketika kejujuran itu merugikan mereka.

Ingolif
sumber
26
+1 untuk "... terbitkan atau musnah sedang dimainkan. Pada kenyataannya, para ilmuwan bergantung pada penemuan yang benar dan menarik, karena hasil yang tidak menarik tidak menghasilkan publikasi." Ada sebuah makalah yang menarik yang keluar tahun lalu yang berbicara tentang bagaimana ini "menerbitkan atau binasa" mengarah ke peracikan kesalahan / bias di seluruh akademisi: Mengapa Temuan Penelitian Paling Diterbitkan Adalah Salah (Ioannidis, 2005)
J. Taylor
4
Saya tidak setuju dengan "ketidakpastian nyata (kemungkinan Gaussian) ..." - Gaussian adalah penyederhanaan lain yang berlebihan. Ini agak lebih dibenarkan daripada model batas keras berkat Central Limit Theorem, tetapi distribusi sebenarnya umumnya masih berbeda.
leftaroundtentang
1
@leftaroundabout Distribusi nyata kemungkinan masih berbeda, tetapi kecuali nilainya secara fisik tidak mungkin, probabilitas kemungkinan masih secara matematis nol.
gerrit
3
@leftaroundabout mengatakan bahwa ketidakpastian kemungkinan Gaussian tidak secara inheren penyederhanaan. Ini menggambarkan distribusi sebelumnya, yang dibenarkan oleh CLT sebagai yang terbaik sebelumnya dengan tidak adanya data pendukung lainnya, tetapi dengan menyatakan ketidakpastian atas distribusi tersebut, pengakuan bahwa distribusi tersebut mungkin bukan Gaussian sudah ada di sana.
Will
7
@memuaskan Anda sangat, sangat keliru. Banyak disiplin ilmu (seperti kimia dan biologi, seperti yang saya sebutkan sebelumnya) menggunakan matematika hampir nol, di samping aritmatika dasar. Kalau tidak, ada beberapa ilmuwan hebat di luar sana yang hampir buta huruf, dan saya sudah bertemu beberapa dari mereka.
Ingolifs
19

Sebagian besar artikel dan gambar yang Anda masukkan membuat poin yang sangat sederhana:

Kurangnya bukti untuk efek bukanlah bukti bahwa itu tidak ada.

Sebagai contoh,

"Dalam penelitian kami, tikus yang diberi sianida tidak mati pada tingkat yang secara statistik lebih tinggi secara signifikan" bukan bukti untuk klaim "sianida tidak berpengaruh pada kematian tikus".

Misalkan kita memberi dua tikus dosis sianida dan satu di antaranya mati. Pada kelompok kontrol dua tikus, tidak ada yang mati. Karena ukuran sampel sangat kecil, hasil ini tidak signifikan secara statistik ( ). Jadi percobaan ini tidak menunjukkan efek sianida yang signifikan secara statistik terhadap umur tikus. Haruskah kita menyimpulkan bahwa sianida tidak berpengaruh pada tikus? Tentu saja tidak.p>0.05

Tapi ini adalah kesalahan yang diklaim para penulis secara rutin dilakukan oleh para ilmuwan.

Misalnya pada gambar Anda, garis merah dapat muncul dari penelitian pada tikus yang sangat sedikit, sedangkan garis biru dapat muncul dari penelitian yang sama persis, tetapi pada banyak tikus.

Para penulis menyarankan bahwa, alih-alih menggunakan ukuran efek dan nilai-p, para ilmuwan bukannya menggambarkan berbagai kemungkinan yang lebih atau kurang kompatibel dengan temuan mereka. Dalam percobaan dua mouse kami, kami harus menulis bahwa temuan kami keduanya kompatibel dengan sianida yang sangat beracun, dan dengan itu tidak beracun sama sekali. Dalam percobaan 100 mouse, kami mungkin menemukan rentang interval kepercayaan kematian dengan perkiraan titik[60%,70%]65%. Maka kita harus menulis bahwa hasil kami akan paling kompatibel dengan asumsi bahwa dosis ini membunuh 65% tikus, tetapi hasil kami juga akan agak kompatibel dengan persentase serendah 60 atau setinggi 70, dan bahwa hasil kami akan kurang kompatibel. dengan kebenaran di luar rentang itu. (Kita juga harus menggambarkan asumsi statistik apa yang kita buat untuk menghitung angka-angka ini.)

usul
sumber
4
Saya tidak setuju dengan pernyataan menyeluruh bahwa "tidak adanya bukti bukanlah bukti ketidakhadiran". Perhitungan daya memungkinkan Anda menentukan kemungkinan menganggap efek dari ukuran tertentu yang signifikan, mengingat ukuran sampel tertentu. Ukuran efek besar memerlukan lebih sedikit data untuk menganggapnya berbeda secara signifikan dari nol, sedangkan efek kecil memerlukan ukuran sampel yang lebih besar. Jika studi Anda diberdayakan dengan benar, dan Anda masih tidak melihat efek signifikan, maka Anda dapat menyimpulkan bahwa efeknya tidak ada. Jika Anda memiliki data yang cukup, tidak signifikansi memang dapat menunjukkan tidak ada efek.
Nuklir Wang
1
@NuclearWang Benar, tetapi hanya jika analisis daya dilakukan sebelumnya dan hanya jika dilakukan dengan asumsi yang benar dan kemudian interpretasi yang benar (yaitu, kekuatan Anda hanya relevan dengan besarnya ukuran efek yang Anda prediksi; "80% power "tidak berarti Anda memiliki probabilitas 80% untuk mendeteksi efek nol dengan benar ). Selain itu, dalam pengalaman saya, penggunaan "tidak signifikan" yang berarti "tidak ada efek" sering diterapkan pada hasil sekunder atau peristiwa langka, yang studi ini (secara tepat) tidak diberdayakan untuk cara apa pun. Akhirnya, beta biasanya >> alpha.
Bryan Krause
9
@NuclearWang, saya tidak berpikir ada yang berdebat "tidak adanya bukti TIDAK PERNAH bukti ketidakhadiran", saya pikir mereka berpendapat itu tidak boleh secara otomatis ditafsirkan seperti itu, dan bahwa ini adalah kesalahan yang mereka lihat membuat orang.
usul
Ini hampir seperti orang yang tidak terlatih dalam tes kesetaraan atau sesuatu.
Alexis
19

Saya akan mencoba.

  1. Interval kepercayaan (yang mereka beri nama interval kompatibilitas) menunjukkan nilai-nilai parameter yang paling kompatibel dengan data. Tetapi itu tidak berarti nilai di luar interval sama sekali tidak kompatibel dengan data.
  2. Nilai di dekat tengah interval kepercayaan (kompatibilitas) lebih kompatibel dengan data daripada nilai di dekat ujung interval.
  3. 95% hanya sebuah konvensi. Anda dapat menghitung 90% atau 99% atau interval% apa pun.
  4. Interval kepercayaan / kompatibilitas hanya membantu jika percobaan dilakukan dengan benar, jika analisis dilakukan sesuai dengan rencana yang telah ditetapkan, dan data sesuai dengan asumsi metode analisis. Jika data buruk Anda dianalisis dengan buruk, interval kompatibilitasnya tidak berarti atau membantu.
Harvey Motulsky
sumber
10

XKCD hebat melakukan kartun ini beberapa waktu lalu, menggambarkan masalahnya. Jika hasil dengan diperlakukan secara sederhana sebagai pembuktian hipotesis - dan terlalu sering - - 1 dari 20 hipotesis yang terbukti benar-benar salah. Demikian pula, jika diambil sebagai menyangkal hipotesis maka 1 dari 20 hipotesis yang benar akan salah ditolak. Nilai-P tidak memberi tahu Anda apakah hipotesis itu benar atau salah, mereka memberi tahu Anda apakah hipotesis itu mungkin benar atau salah. Tampaknya artikel yang direferensikan menendang balik terhadap interpretasi naif yang terlalu umum.P>0.05P < 0,05P<0.05

digitig
sumber
8
(-1) Nilai-P tidak menunjukkan kepada Anda apakah suatu hipotesis mungkin benar atau salah. Anda memerlukan distribusi sebelumnya untuk itu. Lihat xkcd ini , misalnya. Melambaikan tangan yang bermasalah yang mengarah pada kebingungan ini adalah bahwa jika kita memiliki prior yang sama untuk sejumlah besar hipotesis, maka nilai-p akan sebanding dengan probabilitas itu benar atau salah. Tetapi sebelum melihat data apa pun, beberapa hipotesis jauh lebih mungkin daripada yang lain!
Cliff AB
3
Sementara efek ini adalah sesuatu yang tidak boleh diabaikan, itu jauh dari titik signifikan dari artikel yang direferensikan.
RM
6

tl; dr - Pada dasarnya tidak mungkin untuk membuktikan bahwa segala sesuatu tidak berhubungan; statistik hanya dapat digunakan untuk menunjukkan ketika hal - halterkait. Terlepas dari kenyataan yang sudah mapan ini, orang sering salah mengartikan kurangnya signifikansi statistik untuk menyiratkan kurangnya hubungan.


Metode enkripsi yang baik harus menghasilkan ciphertext yang, sejauh penyerang tahu, tidak menunjukkan hubungan statistik apa pun dengan pesan yang dilindungi. Karena jika seorang penyerang dapat menentukan semacam hubungan, maka mereka dapat memperoleh informasi tentang pesan Anda yang dilindungi dengan hanya melihat pada ciphertext - yang merupakan Bad Thing TM .

Namun, ciphertext dan plaintext yang sesuai 100% menentukan satu sama lain. Jadi, bahkan jika ahli matematika terbaik di dunia tidak dapat menemukan hubungan yang signifikan tidak peduli seberapa keras mereka berusaha, kita masih jelas tahu bahwa hubungan itu tidak hanya ada di sana, tetapi itu sepenuhnya dan sepenuhnya deterministik. Determinisme ini dapat ada bahkan ketika kita tahu bahwa tidak mungkin untuk menemukan hubungan .

Meskipun demikian, kami masih mendapatkan orang yang akan melakukan hal-hal seperti:

  1. Pilih beberapa hubungan yang mereka ingin " tolak ".

  2. Lakukan beberapa penelitian tentang hal itu yang tidak memadai untuk mendeteksi dugaan hubungan tersebut.

  3. Laporkan kurangnya hubungan yang signifikan secara statistik.

  4. Putar ini menjadi kurangnya hubungan.

Ini mengarah pada segala macam " studi ilmiah " yang media akan (secara salah) laporkan sebagai menyangkal keberadaan suatu hubungan.

Jika Anda ingin merancang studi Anda sendiri tentang ini, ada banyak cara Anda dapat melakukannya:

  1. Penelitian malas:
    Sejauh ini, cara termudah adalah dengan menjadi sangat malas. Seperti halnya dari sosok yang ditautkan dalam pertanyaan: . Anda dapat dengan mudah mendapatkan dengan hanya memiliki ukuran sampel kecil, memungkinkan banyak kebisingan, dan berbagai hal malas lainnya. Bahkan, jika Anda sangat malas untuk tidak kumpulkan data apa pun , maka Anda sudah selesai!

    'Non-significant' study(high P value)"

  2. Analisis malas:
    Untuk beberapa alasan konyol, beberapa orang berpikir koefisien korelasi Pearson dari berarti " tidak ada korelasi ". Yang benar, dalam arti yang sangat terbatas. Tapi, ada beberapa kasus yang perlu diperhatikan: . Ini, mungkin tidak ada hubungan " linear ", tetapi jelas ada yang lebih kompleks. Dan itu tidak perlu menjadi " enkripsi " -tingkat kompleks, tetapi " itu sebenarnya hanya sedikit berlekuk " atau " ada dua korelasi " atau apa pun.0

  3. Malas menjawab:
    Dalam semangat di atas, saya akan berhenti di sini. Untuk, kamu tahu, menjadi malas!

Tapi, serius, artikel itu merangkum dengan baik di:

Mari kita perjelas apa yang harus dihentikan: kita tidak boleh menyimpulkan ada 'tidak ada perbedaan' atau 'tidak ada asosiasi' hanya karena nilai P lebih besar dari ambang batas seperti 0,05 atau, yang setara, karena interval kepercayaan mencakup nol.

Nat
sumber
+1 menyebabkan apa yang Anda tulis benar dan memancing pemikiran. Namun, menurut pendapat saya yang sederhana, Anda dapat membuktikan bahwa dua kuantitas secara wajar tidak berkorelasi dengan asumsi tertentu. Anda harus memulai pertama kali dengan misalnya mengandaikan distribusi tertentu tentang mereka, tetapi ini dapat didasarkan pada hukum fisika, atau statistik (misalnya kecepatan molekul gas dalam wadah diharapkan menjadi gaussian atau lebih)
ntg
3
@nt Ya, sulit untuk mengetahui bagaimana mengatakan beberapa hal ini, jadi saya meninggalkan banyak hal. Maksud saya, kebenaran umum adalah bahwa kita tidak dapat membuktikan bahwa ada suatu hubungan, meskipun secara umum kita dapat menunjukkan bahwa hubungan tertentu tidak ada. Agak seperti, kita tidak dapat menetapkan bahwa dua seri data tidak terkait, tetapi kita dapat menetapkan bahwa mereka tampaknya tidak terkait dengan fungsi linier sederhana.
Nat
1
-1 "tl; dr- Pada dasarnya tidak mungkin untuk membuktikan bahwa segala sesuatu tidak berhubungan": tes Kesetaraan memberikan bukti tidak adanya efek dalam ukuran efek sewenang-wenang.
Alexis
2
@Alexis Saya pikir Anda salah paham pengujian kesetaraan; Anda dapat menggunakan pengujian kesetaraan untuk membuktikan tidak adanya hubungan tertentu, misalnya hubungan linier, tetapi bukan bukti tidak adanya hubungan apa pun.
Nat
1
@Alexis Statistik inferensi dapat memberikan Anda banyak bukti tentang tidak adanya efek yang lebih besar dari ukuran efek spesifik dalam konteks beberapa model . Mungkin Anda berasumsi bahwa modelnya akan selalu dikenal?
Nat
4

Untuk pengantar didaktik untuk masalah ini, Alex Reinhart menulis sebuah buku yang sepenuhnya tersedia online dan diedit di No Starch Press (dengan lebih banyak konten): https://www.statisticsdonewrong.com

Ini menjelaskan akar masalah tanpa matematika canggih dan memiliki bab khusus dengan contoh-contoh dari set data simulasi:

https://www.statisticsdonewrong.com/p-value.html

https://www.statisticsdonewrong.com/regress.html

Di tautan kedua, contoh grafis menggambarkan masalah nilai-p. Nilai-P sering digunakan sebagai indikator tunggal perbedaan statistik antara dataset tetapi jelas tidak cukup dengan sendirinya.

Edit untuk jawaban yang lebih detail:

Dalam banyak kasus, penelitian bertujuan untuk mereproduksi jenis data yang tepat, baik pengukuran fisik (misalnya jumlah partikel dalam akselerator selama percobaan tertentu) atau indikator kuantitatif (seperti jumlah pasien yang mengalami gejala spesifik selama tes obat). Dalam situasi ini, banyak faktor yang dapat mengganggu proses pengukuran seperti kesalahan manusia atau variasi sistem (orang bereaksi berbeda terhadap obat yang sama). Inilah sebabnya mengapa percobaan sering dilakukan ratusan kali jika mungkin dan pengujian obat dilakukan, idealnya, pada kohort ribuan pasien.

Kumpulan data kemudian direduksi menjadi nilai yang paling sederhana menggunakan statistik: mean, standar deviasi, dan sebagainya. Masalah dalam membandingkan model melalui rata-rata mereka adalah bahwa nilai yang diukur hanya indikator dari nilai yang benar, dan juga secara statistik berubah tergantung pada jumlah dan ketepatan pengukuran individu. Kami memiliki cara untuk memberikan perkiraan yang baik tentang tindakan mana yang cenderung sama dan mana yang tidak, tetapi hanya dengan kepastian tertentu. Ambang batas yang biasa adalah untuk mengatakan bahwa jika kita memiliki kurang dari satu dari dua puluh peluang untuk salah mengatakan dua nilai berbeda, kita menganggapnya "berbeda secara statistik" (itulah arti dari ), kalau tidak kita tidak menyimpulkan.P<0.05

Ini mengarah pada kesimpulan aneh yang diilustrasikan dalam artikel Nature di mana dua ukuran yang sama memberikan nilai rata-rata yang sama tetapi kesimpulan peneliti berbeda karena ukuran sampel. Ini, dan hal-hal lain dari kosa kata statistik dan kebiasaan menjadi semakin penting dalam ilmu. Sisi lain dari masalah adalah bahwa orang cenderung lupa bahwa mereka menggunakan alat statistik dan menyimpulkan tentang efek tanpa verifikasi yang tepat dari kekuatan statistik sampel mereka.

Sebagai ilustrasi lain, baru-baru ini ilmu sosial dan kehidupan sedang mengalami krisis replikasi yang sebenarnya karena fakta bahwa banyak efek yang diterima begitu saja oleh orang-orang yang tidak memeriksa kekuatan statistik yang tepat dari studi terkenal (sementara yang lain memalsukan data tapi ini masalah lain).

G.Clavier
sumber
3
Meskipun bukan hanya tautan, jawaban ini memiliki semua karakteristik yang menonjol dari " jawaban tautan saja ". Untuk meningkatkan jawaban ini, harap sertakan poin-poin utama ke dalam jawaban itu sendiri. Idealnya, jawaban Anda harus bermanfaat sebagai jawaban walaupun konten tautannya hilang.
RM
2
Tentang nilai-p dan fallacy tingkat dasar (disebutkan dalam tautan Anda), Veritasium menerbitkan video ini yang disebut jebakan bayesian .
jjmontes
2
Maaf, saya akan mencoba meningkatkan dan mengembangkan jawaban sesegera mungkin. Gagasan saya adalah untuk menyediakan bahan yang bermanfaat bagi pembaca yang ingin tahu.
G.Clavier
1
@ G.Clavier dan statistik yang dijelaskan sendiri, pemula dan pembaca yang penasaran menghargainya!
uhoh
1
@uhoh Senang membacanya. :)
G.Clavier
4

Bagi saya, bagian terpenting adalah:

... [Kami] mendesak penulis untuk membahas estimasi titik, bahkan ketika mereka memiliki nilai P yang besar atau interval yang lebar, serta mendiskusikan batas interval tersebut.

Dengan kata lain: Tempatkan penekanan yang lebih tinggi pada pembahasan perkiraan (interval tengah dan keyakinan), dan penekanan yang lebih rendah pada "pengujian hipotesis nol".

Bagaimana cara kerjanya dalam praktik? Banyak penelitian bermuara pada pengukuran ukuran efek, misalnya "Kami mengukur rasio risiko 1,20, dengan 95% CI mulai dari 0,97 hingga 1,33". Ini adalah ringkasan studi yang cocok. Anda dapat segera melihat ukuran efek yang paling mungkin dan ketidakpastian pengukuran. Dengan menggunakan ringkasan ini, Anda dapat dengan cepat membandingkan studi ini dengan studi lain yang menyukainya, dan idealnya Anda dapat menggabungkan semua temuan dalam rata-rata tertimbang.

Sayangnya, studi tersebut sering diringkas sebagai "Kami tidak menemukan peningkatan yang signifikan secara statistik dari rasio risiko". Ini adalah kesimpulan yang valid dari penelitian di atas. Tetapi ini bukan ringkasan studi yang cocok, karena Anda tidak dapat dengan mudah membandingkan studi menggunakan ringkasan semacam ini. Anda tidak tahu studi mana yang memiliki pengukuran paling tepat, dan Anda tidak bisa melihat seperti apa penemuan sebuah studi-meta. Dan Anda tidak langsung melihat ketika penelitian mengklaim "peningkatan rasio risiko tidak signifikan" dengan memiliki interval kepercayaan yang sangat besar sehingga Anda dapat menyembunyikan seekor gajah di dalamnya.

Martin JH
sumber
Itu tergantung pada hipotesis nol seseorang. Misalnya, menolak memberikan bukti tidak adanya efek yang lebih besar dari sewenang-wenang kecil . H0:|θ|ΔΔ
Alexis
1
Ya, tapi mengapa repot-repot mendiskusikan hipotesis seperti itu? Anda hanya dapat menyatakan ukuran efek yang diukur dan kemudian membahas apa konsekuensi kasus terbaik / terburuk. Inilah yang biasanya dilakukan dalam fisika, misalnya ketika mengukur perbedaan massa ke muatan antara proton dan antiproton . Penulis dapat memilih untuk merumuskan hipotesis nol (mungkin, untuk mengikuti contoh Anda, bahwa perbedaan absolut lebih besar daripada beberapa ) dan melanjutkan untuk mengujinya, tetapi ada sedikit nilai tambah dalam diskusi tersebut. θ±δθΔ
Martin JH
3

Adalah "signifikan" bahwa ahli statistik , bukan hanya ilmuwan, bangkit dan menolak penggunaan " nilai " dan nilai longgar . Masalah terbaru dari The American Statistician didedikasikan sepenuhnya untuk masalah ini. Lihat terutama editorial utama oleh Wasserman, Schirm, dan Lazar. P

rvl
sumber
Terima kasih atas tautannya! Ini adalah pembuka mata; Saya tidak menyadari ada begitu banyak pemikiran dan perdebatan tentang ini.
uhoh
2

Adalah fakta bahwa karena beberapa alasan, nilai-p memang menjadi masalah.

Namun, terlepas dari kelemahan mereka, mereka memiliki kelebihan penting seperti kesederhanaan dan teori intuitif. Oleh karena itu, sementara secara keseluruhan saya setuju dengan Komentar di Alam , saya berpikir bahwa daripada membuang signifikansi statistik sepenuhnya, diperlukan solusi yang lebih seimbang. Berikut ini beberapa opsi:

1. "Mengubah ambang batas nilai-P untuk signifikansi statistik dari 0,05 menjadi 0,005 untuk klaim penemuan baru". Dalam pandangan saya, Benjamin dkk membahas dengan sangat baik argumen yang paling meyakinkan untuk tidak mengadopsi standar bukti yang lebih tinggi.

2. Mengadopsi nilai- p generasi kedua . Ini tampaknya menjadi solusi yang masuk akal untuk sebagian besar masalah yang mempengaruhi nilai-p klasik . Seperti yang dikatakan Blume et al di sini , nilai-p generasi kedua dapat membantu "meningkatkan kekakuan, reproduksibilitas, & transparansi dalam analisis statistik."

3. Mendefinisikan kembali nilai-p sebagai "ukuran kuantitatif kepastian -" indeks kepercayaan "- bahwa hubungan yang diamati, atau klaim, adalah benar." Ini dapat membantu mengubah sasaran analisis dari mencapai signifikansi hingga memperkirakan keyakinan ini dengan tepat.

Yang penting, "hasil yang tidak mencapai ambang batas untuk signifikansi statistik atau " kepercayaan " (apa pun itu) masih bisa menjadi penting dan pantas dipublikasikan dalam jurnal terkemuka jika mereka menjawab pertanyaan penelitian penting dengan metode yang ketat."

Saya pikir itu bisa membantu mengurangi obsesi dengan nilai-p oleh jurnal terkemuka, yang berada di balik penyalahgunaan nilai-p .

Krantz
sumber
Terima kasih atas jawaban Anda, ini sangat membantu. Saya akan meluangkan waktu membaca Blume et al. tentang p-values ​​generasi kedua , tampaknya cukup mudah dibaca.
uhoh
1
@uhoh, senang bahwa jawaban saya membantu pertanyaan Anda.
Krantz
1

Satu hal yang belum disebutkan adalah bahwa kesalahan atau signifikansi adalah perkiraan statistik, bukan pengukuran fisik aktual: Mereka sangat bergantung pada data yang Anda miliki dan bagaimana Anda memprosesnya. Anda hanya dapat memberikan nilai kesalahan dan signifikansi yang tepat jika Anda telah mengukur setiap peristiwa yang mungkin terjadi. Ini biasanya tidak demikian, jauh dari itu!

Oleh karena itu, setiap perkiraan kesalahan atau signifikansi, dalam hal ini nilai P apa pun, menurut definisi tidak akurat dan tidak boleh dipercaya untuk menggambarkan penelitian yang mendasarinya - apalagi fenomena! - akurat. Bahkan, tidak boleh dipercaya untuk menyampaikan apa pun tentang hasil TANPA pengetahuan tentang apa yang diwakili, bagaimana kesalahan diperkirakan dan apa yang dilakukan untuk mengontrol kualitas data. Misalnya, salah satu cara untuk mengurangi perkiraan kesalahan adalah dengan menghapus outlier. Jika ini adalah penghapusan juga dilakukan secara statistik, lalu bagaimana Anda bisa benar-benar tahu outlier adalah kesalahan nyata dan bukan pengukuran nyata yang seharusnya dimasukkan dalam kesalahan? Bagaimana mengurangi kesalahan dapat meningkatkan signifikansi hasil? Bagaimana dengan pengukuran yang salah di dekat taksiran? Mereka membaik kesalahan dan dapat berdampak signifikan secara statistik tetapi dapat menyebabkan kesimpulan yang salah!

Untuk itu, saya melakukan pemodelan fisik dan telah membuat model sendiri di mana kesalahan 3-sigma benar-benar tidak fisik. Artinya, secara statistik ada sekitar satu peristiwa dalam seribu (well ... lebih sering dari itu, tapi saya ngelantur) yang akan menghasilkan nilai yang benar-benar konyol. Besarnya 3 kesalahan interval di bidang saya kira-kira setara dengan memiliki estimasi terbaik 1 cm berubah menjadi satu meter setiap sekarang dan kemudian. Namun, ini memang hasil yang diterima ketika memberikan statistik +/- interval dihitung dari data fisik, empiris di bidang saya. Tentu, sempitnya interval ketidakpastian dihormati, tetapi seringkali nilai perkiraan tebakan terbaik lebih bermanfaat bahkan ketika interval kesalahan nominal akan lebih besar.

Sebagai catatan, saya pernah secara pribadi bertanggung jawab atas salah satu dari seribu outlier. Saya sedang dalam proses mengkalibrasi suatu instrumen ketika suatu peristiwa terjadi yang seharusnya kita ukur. Sayangnya, titik data itu akan menjadi salah satu dari 100 outlier lipat, jadi dalam arti tertentu, mereka terjadi dan termasuk dalam kesalahan pemodelan!

Geenimetsuri
sumber
"Anda hanya dapat memberikan ukuran yang akurat, jika Anda telah mengukur setiap peristiwa yang mungkin terjadi." Hmm. Jadi, akurasi tidak ada harapan? Dan juga tidak relevan? Harap perluas perbedaan antara akurasi dan bias. Apakah estimasi yang tidak akurat bias atau tidak bias? Jika mereka tidak bias, maka bukankah mereka sedikit berguna? "Misalnya, salah satu cara untuk mengurangi kesalahan adalah dengan menghapus pencilan." Hmm. Itu akan mengurangi varians sampel, tetapi "kesalahan"? "... sering kali nilai perkiraan perkiraan terbaik adalah hasil yang lebih berguna bahkan ketika interval kesalahan nominal akan lebih besar" Saya tidak menyangkal bahwa yang baik sebelumnya lebih baik daripada percobaan yang buruk.
Peter Leopold
Dimodifikasi teks sedikit berdasarkan komentar Anda. Yang saya maksudkan adalah bahwa ukuran kesalahan statistik selalu merupakan taksiran kecuali jika Anda memiliki semua tes individu yang memungkinkan, dengan kata lain, tersedia. Ini jarang terjadi, kecuali ketika misalnya melakukan polling pada sejumlah orang (nb bukan sebagai sampel dari kerumunan yang lebih besar atau populasi umum).
Geenimetsuri
1
Saya adalah seorang praktisi yang menggunakan statistik daripada seorang ahli statistik. Saya pikir masalah mendasar dengan nilai p adalah bahwa banyak yang tidak terbiasa dengan apa yang mereka bingungkan dengan signifikansi substantif. Jadi saya telah diminta untuk menentukan lereng mana yang penting dengan menggunakan nilai p terlepas dari apakah lereng itu besar atau tidak. Masalah serupa menggunakan mereka untuk menentukan dampak relatif dari variabel (yang sangat penting bagi saya, tetapi yang mendapat sedikit perhatian dalam literatur regresi).
user54285