Konsensus umum tentang pertanyaan serupa, Apakah salah untuk menyebut hasil sebagai "sangat signifikan"? adalah bahwa "sangat signifikan" adalah cara yang valid, meskipun tidak spesifik, untuk menggambarkan kekuatan asosiasi yang memiliki nilai p jauh di bawah ambang signifikansi yang telah Anda tetapkan sebelumnya. Namun, bagaimana dengan menggambarkan nilai-p yang sedikit di atas ambang batas Anda? Saya telah melihat beberapa makalah menggunakan istilah seperti "agak signifikan", "hampir signifikan", "mendekati signifikansi", dan sebagainya. Saya menemukan istilah-istilah ini sedikit plin-plan, dalam beberapa kasus, cara tidak jujur batas untuk menarik hasil yang berarti dari studi dengan hasil negatif. Apakah istilah ini dapat diterima untuk menggambarkan hasil yang "hanya melewatkan" batas nilai p Anda?
13
Jawaban:
Jika Anda ingin mengizinkan "signifikansi" untuk mengakui derajat kemudian cukup adil ("agak signifikan", "cukup signifikan"), tetapi hindari frasa yang menyarankan Anda masih terikat dengan gagasan ambang, seperti "hampir signifikan" , "mendekati signifikansi", atau "pada puncak signifikansi" (favorit saya dari "Masih Tidak Signifikan" di blog Kemungkinan Kesalahan ), jika Anda tidak ingin terlihat putus asa.
sumber
Dari sudut pandang saya, masalah ini bermuara pada apa artinya melakukan tes signifikansi. Pengujian signifikansi dirancang sebagai sarana untuk membuat keputusan untuk menolak hipotesis nol atau untuk gagal menolaknya. Fisher sendiri memperkenalkan aturan 0,05 yang terkenal karena membuat keputusan (sewenang-wenang) itu.
Pada dasarnya, logika pengujian signifikansi adalah bahwa pengguna harus menentukan tingkat alfa untuk menolak hipotesis nol (konvensional 0,05) sebelum mengumpulkan data . Setelah menyelesaikan uji signifikansi, pengguna menolak nol jika nilai p lebih kecil dari tingkat alpha (atau gagal menolaknya sebaliknya).
Alasan mengapa Anda tidak dapat menyatakan bahwa efeknya sangat signifikan (katakanlah, pada level 0,001) adalah karena Anda tidak dapat menemukan bukti yang lebih kuat daripada yang ingin Anda temukan. Jadi, jika Anda menetapkan tingkat alfa Anda pada 0,05 sebelum tes, Anda hanya dapat menemukan bukti pada tingkat 0,05, terlepas dari seberapa kecil nilai p Anda. Dengan cara yang sama, berbicara tentang efek yang "agak signifikan" atau "mendekati signifikansi" juga tidak masuk akal karena Anda memilih kriteria arbitrer ini yaitu 0,05. Jika Anda menafsirkan logika pengujian signifikansi secara harfiah, apa pun yang lebih besar dari 0,05 tidak signifikan.
Saya setuju bahwa istilah-istilah seperti "mendekati signifikansi" sering digunakan untuk meningkatkan prospek publikasi. Namun, saya tidak berpikir bahwa penulis dapat disalahkan untuk itu karena budaya publikasi saat ini dalam beberapa ilmu masih sangat bergantung pada "cawan suci" 0,05.
Beberapa masalah ini dibahas dalam:
Gigerenzer, G. (2004). Statistik tanpa pikiran. Jurnal Sosial Ekonomi, 33 (5), 587-606.
Royall, R. (1997). Bukti statistik: paradigma kemungkinan (Vol. 71). Tekan CRC.
sumber
Lereng yang licin ini memanggil kembali kerangka kerja Fisher vs Neyman / Pearson untuk pengujian signifikansi nol-hipotesis (NHST). Di satu sisi, seseorang ingin membuat penilaian kuantitatif tentang seberapa kecil kemungkinan hasilnya di bawah hipotesis nol (misalnya, ukuran efek). Di sisi lain, pada akhir hari Anda menginginkan keputusan yang terpisah, apakah hasil Anda, atau tidak, kemungkinan disebabkan oleh kebetulan saja. Yang akhirnya kami dapatkan adalah semacam pendekatan hybrid yang tidak terlalu memuaskan.
Dalam sebagian besar disiplin ilmu, p konvensional untuk signifikansi ditetapkan pada 0,05, tetapi benar-benar tidak ada landasan mengapa ini harus terjadi. Ketika saya mengulas sebuah makalah, saya sama sekali tidak punya masalah dengan seorang penulis yang menyebut 0,06 signifikan, atau bahkan 0,07, asalkan metodologinya bagus, dan seluruh gambar, termasuk semua analisis, angka, dll. Menceritakan kisah yang konsisten dan dapat dipercaya. Di mana Anda mengalami masalah adalah ketika penulis mencoba membuat cerita dari data sepele dengan ukuran efek yang kecil. Sebaliknya, saya mungkin tidak sepenuhnya 'percaya' suatu tes praktis bermakna bahkan ketika mencapai p <0,05 konvensional signifikansi. Seorang kolega saya pernah berkata: "Statistik Anda seharusnya hanya mendukung apa yang sudah terlihat dalam angka Anda."
Itu semua berkata, saya pikir Vasilev benar. Mengingat sistem publikasi yang rusak, Anda cukup banyak harus memasukkan nilai p, dan karena itu Anda cukup banyak menggunakan kata 'signifikan' untuk dianggap serius, bahkan jika itu membutuhkan kata sifat seperti "sedikit" (yang saya sukai). Anda selalu bisa memperjuangkannya dalam peer review, tetapi Anda harus sampai di sana dulu.
sumber
Perbedaan antara dua nilai-p itu sendiri biasanya tidak signifikan. Jadi, tidak masalah apakah nilai-p Anda adalah 0,05, 0,049, 0,051 ...
Berkenaan dengan nilai-p sebagai ukuran kekuatan asosiasi: Nilai-p tidak secara langsung merupakan ukuran kekuatan asosiasi. Nilai-p adalah probabilitas untuk menemukan data yang ekstrem atau lebih ekstrem seperti data yang telah Anda amati, mengingat parameter dihipotesiskan menjadi 0 (jika seseorang tertarik pada hipotesis nol - lihat komentar Nick Cox). Namun, ini sering kali bukan kuantitas yang diminati peneliti. Banyak peneliti agak tertarik untuk menjawab pertanyaan seperti "berapa probabilitas parameter menjadi lebih besar daripada beberapa nilai cut-off yang dipilih?" Jika ini yang Anda minati, Anda perlu memasukkan informasi sebelumnya tambahan dalam model Anda.
sumber
sumber
Saya cenderung berpikir mengatakan sesuatu yang hampir signifikan secara statistik tidak benar dari sudut pandang teknis. Setelah Anda menetapkan tingkat toleransi Anda, uji statistik signifikansi ditetapkan. Anda harus kembali ke gagasan distribusi sampel. Jika tingkat toleransi Anda adalah 0,05 dan Anda mendapatkan nilai-p 0,053 maka kebetulan sampel yang digunakan menghasilkan statistik itu. Anda bisa sangat baik mendapatkan sampel lain yang mungkin tidak menghasilkan hasil yang sama - saya percaya kemungkinan yang terjadi didasarkan pada set level toleransi dan bukan pada statistik sampel. Ingatlah bahwa Anda menguji sampel terhadap parameter populasi dan sampel memiliki distribusi sampling sendiri. Jadi menurut saya, ada sesuatu yang signifikan secara statistik atau tidak.
sumber
Ini adalah cerita yang sama sekali berbeda ketika Anda menolak nol, karena nilai-p tidak terdistribusi secara merataH1 tetapi distribusi tergantung pada parameter.
Lihat misalnya Wikipedia .
sumber