Ini adalah pertanyaan diskusi tentang persimpangan statistik dan ilmu pengetahuan lainnya. Saya sering menghadapi masalah yang sama: para peneliti di bidang saya cenderung mengatakan bahwa tidak ada efek ketika nilai-p tidak kurang dari tingkat signifikansi. Pada awalnya, saya sering menjawab ini bukan cara kerja pengujian hipotesis. Mengingat seberapa sering pertanyaan ini muncul, saya ingin membahas masalah ini dengan ahli statistik yang lebih berpengalaman.
Mari kita perhatikan makalah baru-baru ini dalam jurnal ilmiah dari "kelompok penerbitan terbaik" Nature Communications Biology (ada banyak contoh, tetapi mari kita fokus pada satu)
Para peneliti menafsirkan hasil yang tidak signifikan secara statistik dengan cara berikut:
Dengan demikian pembatasan kalori moderat kronis dapat memperpanjang umur dan meningkatkan kesehatan primata, tetapi hal itu memengaruhi integritas materi kelabu otak tanpa memengaruhi kinerja kognitif .
Bukti:
Namun, kinerja dalam tugas labirin Barnes tidak berbeda antara kontrol dan hewan yang dibatasi kalori (LME: F = 0,05, p = 0,82; Gambar. 2a). Demikian pula, tugas pergantian spontan tidak mengungkapkan perbedaan antara kontrol dan hewan yang dibatasi kalori (LME: F = 1,63, p = 0,22; Gbr. 2b).
Para penulis juga menyarankan penjelasan tentang tidak adanya efek - tetapi poin kuncinya bukanlah penjelasan tetapi klaim itu sendiri. Plot yang disediakan terlihat sangat berbeda "dengan mata" bagi saya (Gambar 2).
Selain itu, penulis mengabaikan pengetahuan sebelumnya:
efek buruk dari pembatasan kalori pada kinerja kognitif telah dilaporkan untuk tikus dan untuk fungsi otak dan emosi pada manusia
Saya dapat memahami klaim yang sama untuk ukuran sampel yang sangat besar (tidak ada efek = tidak ada efek yang signifikan secara praktis di sana), tetapi dalam situasi tertentu tes kompleks digunakan dan tidak jelas bagi saya bagaimana melakukan perhitungan daya.
Pertanyaan:
Apakah saya mengabaikan detail yang membuat kesimpulannya valid?
Mempertimbangkan perlunya melaporkan hasil negatif dalam sains, bagaimana membuktikan bahwa itu bukan "ketiadaan hasil" (yang kita miliki dengan ), tetapi "hasil negatif (mis. Tidak ada perbedaan antara kelompok)" menggunakan statistik? Saya mengerti bahwa untuk ukuran sampel besar bahkan penyimpangan kecil dari penolakan penyebab nol, tetapi mari kita asumsikan bahwa kita memiliki data yang ideal dan masih perlu membuktikan bahwa nol secara praktis benar.
Haruskah ahli statistik selalu bersikeras pada kesimpulan yang benar secara matematis seperti "memiliki kekuatan ini kami tidak dapat mendeteksi efek ukuran signifikan"? Para peneliti dari bidang lain sangat tidak menyukai formulasi hasil negatif tersebut.
Saya akan senang mendengar pemikiran tentang masalah ini dan saya telah membaca dan memahami pertanyaan terkait di situs web ini. Ada jawaban yang jelas untuk pertanyaan 2) -3) dari sudut pandang statistik, tetapi saya ingin memahami bagaimana pertanyaan ini harus dijawab dalam kasus dialog antar-disiplin.
UPD: Saya pikir contoh yang baik dari hasil negatif adalah tahap 1 uji coba medis, keselamatan. Kapan para ilmuwan dapat memutuskan bahwa obat itu aman? Saya kira mereka membandingkan dua kelompok dan melakukan statistik pada data ini. Adakah cara untuk mengatakan bahwa obat ini aman? Cochrane menggunakan akurat "tidak ada efek samping yang ditemukan", tetapi dokter mengatakan bahwa obat ini aman. Ketika keseimbangan antara akurasi dan kesederhanaan deskripsi bertemu dan kita dapat mengatakan "tidak ada konsekuensi untuk kesehatan"?
sumber
Jawaban:
Saya pikir kadang-kadang tepat untuk menafsirkan hasil yang tidak signifikan secara statistik dalam semangat "terima hipotesis nol". Bahkan, saya telah melihat studi signifikan secara statistik ditafsirkan sedemikian rupa; penelitian ini terlalu tepat dan hasilnya konsisten dengan kisaran efek non-null yang kecil tetapi tidak signifikan secara klinis. Berikut ini adalah kritik yang agak melepuh dari sebuah penelitian (atau bahkan persnya) tentang hubungan antara konsumsi cokelat / anggur merah dan pengaruhnya yang "menyehatkan" pada diabetes. Kurva probabilitas untuk distribusi resistensi insulin dengan asupan tinggi / rendah adalah histeris.
Apakah seseorang dapat menafsirkan temuan sebagai "mengkonfirmasi H_0" tergantung pada sejumlah besar faktor: validitas penelitian, kekuatan, ketidakpastian estimasi, dan bukti sebelumnya. Melaporkan interval kepercayaan (CI) alih-alih nilai p mungkin merupakan kontribusi paling berguna yang dapat Anda buat sebagai ahli statistik. Saya mengingatkan peneliti dan sesama ahli statistik bahwa statistik tidak membuat keputusan, orang melakukannya; menghilangkan nilai-p sebenarnya mendorong diskusi yang lebih bijaksana dari temuan.
Lebar CI menggambarkan serangkaian efek yang mungkin atau mungkin tidak termasuk nol, dan mungkin atau mungkin tidak termasuk nilai yang sangat signifikan secara klinis seperti potensi penyelamatan jiwa. Namun, CI yang sempit mengkonfirmasi satu jenis efek; baik tipe terakhir yang "signifikan" dalam arti sebenarnya, atau yang pertama mungkin nol atau sesuatu yang sangat dekat dengan nol.
Mungkin yang dibutuhkan adalah pengertian yang lebih luas tentang apa "hasil nol" (dan efek nol). Apa yang saya anggap mengecewakan dalam kolaborasi penelitian adalah ketika para peneliti tidak dapat secara apriori menyatakan kisaran efek apa yang mereka targetkan: jika suatu intervensi dimaksudkan untuk menurunkan tekanan darah, berapa mmHg? Jika obat dimaksudkan untuk menyembuhkan kanker, berapa bulan bertahan hidup pasien? Seseorang yang bergairah dengan penelitian dan "terhubung" ke bidangnya dan sains dapat mengungkap fakta paling menakjubkan tentang penelitian sebelumnya dan apa yang telah dilakukan.
Dalam contoh Anda, saya tidak dapat membantu tetapi memperhatikan bahwa nilai-p 0,82 kemungkinan sangat dekat dengan nol. Dari itu, yang bisa saya katakan adalah bahwa CI dipusatkan pada nilai nol. Apa yang saya tidak tahu adalah apakah itu mencakup efek signifikan secara klinis. Jika CI sangat sempit, interpretasi yang mereka berikan adalah, menurut pendapat saya, benar tetapi data tidak mendukungnya: itu akan menjadi suntingan kecil. Sebaliknya, nilai p kedua 0,22 relatif lebih dekat dengan ambang batas signifikansinya (apa pun itu). Para penulis juga menafsirkannya sebagai "tidak memberikan bukti perbedaan" yang konsisten dengan interpretasi tipe "jangan menolak H_0". Sejauh relevansi artikel, saya bisa mengatakan sangat sedikit. Saya harap Anda membaca literatur yang menemukan diskusi yang lebih menonjol dari temuan studi! Sejauh analisis,
sumber
Berbicara kepada judul pertanyaan Anda: kami tidak pernah menerima hipotesis nol, karena pengujian hanya menyediakan bukti terhadap H 0 (yaitu kesimpulan selalu sehubungan dengan hipotesis alternatif, baik Anda menemukan bukti untuk H A atau Anda gagal menemukan bukti untuk H A ).H0 H0 HA HA
Namun, kita dapat mengenali bahwa ada berbagai jenis hipotesis nol:
Anda mungkin telah belajar tentang hipotesis nol satu sisi dari formulir dan H 0 : θ ≤ θ 0H0:θ≥θ0 H0:θ≤θ0
Anda mungkin telah belajar tentang hipotesis nol dua sisi (alias hipotesis nol dua sisi ) dari bentuk , atau secara sinonim H 0 : θ - θ 0 = 0 dalam kasus satu sampel, dan H 0 : θ 1 = θ 2 , atau secara sinonim H 0 : θ 1 - θ 2 = 0H0:θ=θ0 H0:θ−θ0=0 H0:θ1=θ2 H0:θ1−θ2=0 dalam kasus dua sampel. Saya menduga bentuk spesifik dari hipotesis nol ini adalah tentang pertanyaan Anda. Mengikuti Reagle dan Vinod, saya mengistilahkan hipotesis nol dari hipotesis positif positivis ini , dan menjadikannya eksplisit dengan notasi . Hipotesis positivis nol memberikan, atau gagal memberikan bukti perbedaan atau bukti efek . Hipotesis positivis nol memiliki bentuk omnibus untuk kelompok k : H + 0 : θ i = θ j ; untuk semua i , j ∈ { 1 , 2H+0 k H+0:θi=θj; dan saya ≠ j .i,j∈{1,2,…k}; and i≠j
[tost]
Ada beberapa cara untuk melakukan tes untuk kesetaraan (apakah ada yang menggabungkan atau tidak dengan tes untuk perbedaan):
Referensi Reagle, DP dan Vinod, HD (2003). Kesimpulan untuk teori negatif menggunakan daerah penolakan yang dihitung secara numerik . Statistik Komputasi & Analisis Data , 42 (3): 491–512.
Schuirmann, DA (1987). Perbandingan dua prosedur tes satu sisi dan pendekatan daya untuk menilai kesetaraan bioavailabilitas rata-rata . Jurnal Farmakokinetik dan Biofarmasi , 15 (6): 657–680.
Tryon, WW dan Lewis, C. (2008). Metode interval kepercayaan inferensial untuk menetapkan kesetaraan statistik yang mengoreksi faktor reduksi Tryon (2001) . Metode Psikologis , 13 (3): 272-277.
Tryon, WW dan Lewis, C. (2009). Mengevaluasi proporsi independen untuk perbedaan statistik, kesetaraan, ketidakpastian, dan perbedaan sepele menggunakan interval kepercayaan inferensial . Jurnal Statistik Pendidikan dan Perilaku , 34 (2): 171–189.
Wellek, S. (2010). Menguji Hipotesis Statistik Kesetaraan dan Noninferioritas . Chapman dan Hall / CRC Press, edisi kedua.
sumber
Anda mengacu pada praktik inferensi standar yang diajarkan dalam kursus statistik:
Ini baik-baik saja, dan digunakan dalam praktik. Saya bahkan berani menebak prosedur ini bisa wajib di beberapa industri yang diatur seperti farmasi.
Namun, ini bukan satu-satunya cara statistik dan inferensi diterapkan dalam penelitian dan praktik. Sebagai contoh, lihat makalah ini : "Pengamatan partikel baru dalam mencari Standard Model Higgs boson dengan detektor ATLAS di LHC". Makalah ini pertama kali menyajikan bukti keberadaan Higgs boson, dalam eksperimen yang disebut ATLAS. Itu juga salah satu makalah di mana daftar penulis selama konten yang sebenarnya :)
Berikut adalah kesimpulan yang dirumuskan: "Hasil ini memberikan bukti konklusif untuk penemuan partikel baru dengan massa 126,0 ± 0,4 (stat) ± 0,4 (sys) GeV." Kata "stat" mengacu pada statistik dan "sistem" untuk ketidakpastian sistematis.
Jadi, seperti yang Anda lihat tidak semua orang melakukan prosedur empat langkah yang saya uraikan di awal jawaban ini. Di sini, para peneliti menunjukkan nilai p tanpa menetapkan ambang, bertentangan dengan apa yang diajarkan di kelas statistik. Kedua, mereka tidak menari "menolak / gagal menolak", setidaknya secara formal. Mereka memotong ke pengejaran, dan berkata "inilah nilai-p, dan itulah sebabnya kami mengatakan kami menemukan partikel baru dengan 126 massa GeV."
Catatan penting
Para penulis makalah Higgs belum menyatakan boson Higgs. Mereka hanya menegaskan bahwa partikel baru itu ditemukan dan bahwa beberapa sifatnya seperti massa konsisten dengan Higgs boson.
Butuh beberapa tahun untuk mengumpulkan bukti tambahan sebelum ditetapkan bahwa partikel itu memang adalah boson Higgs. Lihat posting blog ini dengan diskusi awal tentang hasil. Fisikawan kemudian memeriksa sifat-sifat yang berbeda seperti putaran nol. Dan sementara bukti dikumpulkan di beberapa titik CERN menyatakan bahwa partikelnya adalah Higgs boson.
Mengapa ini penting? Karena tidak mungkin untuk meremehkan proses penemuan ilmiah untuk beberapa prosedur inferensi statistik yang kaku. Inferensi statistik hanyalah salah satu alat yang digunakan.
Ketika CERN sedang mencari partikel ini, fokusnya adalah pada pertama kali menemukannya. Itu adalah tujuan akhir. Fisikawan punya ide ke mana harus memandang. Begitu mereka menemukan kandidat, mereka fokus untuk membuktikan itu adalah salah satunya. Akhirnya, totalitas bukti, bukan percobaan tunggal dengan nilai-p dan signifikansi, meyakinkan semua orang bahwa kami menemukan partikel. Sertakan di sini semua pengetahuan sebelumnya dan model standar . Ini bukan hanya kesimpulan statistik, metode ilmiah lebih luas dari itu.
sumber
Ada cara untuk mendekati ini yang tidak bergantung pada perhitungan daya (lihat Wellek, 2010). Secara khusus, Anda juga dapat menguji apakah Anda menolak nol yang efeknya dari nilai apriori yang berarti.
Daniël Lakens mendukung dalam situasi ini untuk pengujian kesetaraan. Laken khususnya menggunakan " TOST " (dua tes satu sisi) untuk perbandingan rata-rata, tetapi ada cara lain untuk mendapatkan ide yang sama.
Dalam TOST, Anda menguji senyawa nol: hipotesis nol satu sisi yang menyatakan bahwa efek Anda lebih negatif daripada perbedaan minat terkecil dan nol bahwa efek Anda lebih positif daripada perbedaan minat positif terkecil. Jika Anda menolak keduanya, maka Anda dapat mengklaim bahwa tidak ada perbedaan yang berarti. Perhatikan bahwa ini dapat terjadi bahkan jika efeknya berbeda secara signifikan dari nol, tetapi dalam kasus apa pun itu tidak memerlukan pengesahan nol.
Lakens, D. (2017). Tes Kesetaraan: primer praktis untuk uji t , korelasi, dan meta-analisis . Ilmu Psikologis dan Kepribadian Sosial , 8 (4), 355-362.
Wellek, S. (2010). Menguji Hipotesis Statistik Kesetaraan dan Noninferioritas . Chapman dan Hall / CRC Press, edisi kedua.
sumber