Apakah salah untuk menyebut hasil sebagai "hampir" atau "agak" signifikan?

13

Konsensus umum tentang pertanyaan serupa, Apakah salah untuk menyebut hasil sebagai "sangat signifikan"? adalah bahwa "sangat signifikan" adalah cara yang valid, meskipun tidak spesifik, untuk menggambarkan kekuatan asosiasi yang memiliki nilai p jauh di bawah ambang signifikansi yang telah Anda tetapkan sebelumnya. Namun, bagaimana dengan menggambarkan nilai-p yang sedikit di atas ambang batas Anda? Saya telah melihat beberapa makalah menggunakan istilah seperti "agak signifikan", "hampir signifikan", "mendekati signifikansi", dan sebagainya. Saya menemukan istilah-istilah ini sedikit plin-plan, dalam beberapa kasus, cara tidak jujur ​​batas untuk menarik hasil yang berarti dari studi dengan hasil negatif. Apakah istilah ini dapat diterima untuk menggambarkan hasil yang "hanya melewatkan" batas nilai p Anda?

Wang Nuklir
sumber
3
Saya tidak percaya ada orang yang menyarankan kualifikasi "signifikansi" untuk menggambarkan "kekuatan asosiasi"; yang terakhir terdengar lebih mirip ukuran ukuran efek. Bagaimanapun, lihat di sini untuk daftar yang lebih lengkap.
Scortchi
1
@ Scortchi - Dari pemahaman saya, nilai p yang sangat kecil sangat signifikan, yang berarti hubungan yang kuat antara variabel yang dipertanyakan dan target. Ini adalah hasil dari ukuran efek yang besar, banyak data, atau keduanya. Untuk nilai-p yang besar, bukti yang mendukung hubungan antara variabel dan target lemah. Juga, suka daftar itu di tautan Anda.
Nuclear Wang
9
Memperoleh nilai-p yang sangat kecil untuk ukuran efek yang kecil hampir tidak bisa disebut sebagai "asosiasi yang kuat." Itu hanya akan menjadi asosiasi yang terdeteksi .
whuber
2
Saya telah melihat banyak orang menggunakan frasa ini di industri, bukan dalam makalah akademis.
Aksakal
1
Mungkin ketidaknyamanan Anda berasal dari keyakinan bahwa nilai-p (atau angka lain yang berasal dari sampel) adalah ukuran yang tajam dari sesuatu.
Eric Towers

Jawaban:

14

Jika Anda ingin mengizinkan "signifikansi" untuk mengakui derajat kemudian cukup adil ("agak signifikan", "cukup signifikan"), tetapi hindari frasa yang menyarankan Anda masih terikat dengan gagasan ambang, seperti "hampir signifikan" , "mendekati signifikansi", atau "pada puncak signifikansi" (favorit saya dari "Masih Tidak Signifikan" di blog Kemungkinan Kesalahan ), jika Anda tidak ingin terlihat putus asa.

Scortchi - Reinstate Monica
sumber
9
(+1) untuk tautan. Tapi saya pikir puncak kreativitas puitis ada "tertatih-tatih di ambang signifikansi (p = 0,06)" .
Alecos Papadopoulos
1
@AlecosPapadopoulos: Anda benar, meskipun "menggoda dengan tingkat signifikansi konvensional" & "melayang lebih dekat ke signifikansi statistik" layak disebut terhormat. "Kuasi-signifikan" mungkin adalah pemenang dalam kategori yang berbeda.
Scortchi
4
Memang dua yang pertama adalah semangat sinematografi sejati, yang pertama dari film "Statistical Gigolo" (siapa lagi yang akan menggoda dengan tingkat konvensional ?), Sedangkan yang kedua dari film "Dying on the Tail", di mana kita melihat burung nasar yang mengancam (Nilai-p) melayang di atas pahlawan yang sekarat (signifikansi statistik).
Alecos Papadopoulos
1
Secara pribadi, saya akan meninggalkan kata 'signifikan' dalam frasa saya dan memanggil p = 0,06 'cukup menarik'. Benar, atau salah, ketika saya pertama kali menemukan nilai-p dalam kursus Six Sigma, instruktur menyarankan bahwa untuk 0,05 <= 0,1 label yang tepat adalah 'lebih banyak data yang diperlukan' (berdasarkan pada pengaturan industri di mana titik data tambahan sulit diperoleh , jadi sangat berbeda dengan skenario 'Big Data'
Robert de Graaf
6

Dari sudut pandang saya, masalah ini bermuara pada apa artinya melakukan tes signifikansi. Pengujian signifikansi dirancang sebagai sarana untuk membuat keputusan untuk menolak hipotesis nol atau untuk gagal menolaknya. Fisher sendiri memperkenalkan aturan 0,05 yang terkenal karena membuat keputusan (sewenang-wenang) itu.

Pada dasarnya, logika pengujian signifikansi adalah bahwa pengguna harus menentukan tingkat alfa untuk menolak hipotesis nol (konvensional 0,05) sebelum mengumpulkan data . Setelah menyelesaikan uji signifikansi, pengguna menolak nol jika nilai p lebih kecil dari tingkat alpha (atau gagal menolaknya sebaliknya).

Alasan mengapa Anda tidak dapat menyatakan bahwa efeknya sangat signifikan (katakanlah, pada level 0,001) adalah karena Anda tidak dapat menemukan bukti yang lebih kuat daripada yang ingin Anda temukan. Jadi, jika Anda menetapkan tingkat alfa Anda pada 0,05 sebelum tes, Anda hanya dapat menemukan bukti pada tingkat 0,05, terlepas dari seberapa kecil nilai p Anda. Dengan cara yang sama, berbicara tentang efek yang "agak signifikan" atau "mendekati signifikansi" juga tidak masuk akal karena Anda memilih kriteria arbitrer ini yaitu 0,05. Jika Anda menafsirkan logika pengujian signifikansi secara harfiah, apa pun yang lebih besar dari 0,05 tidak signifikan.

Saya setuju bahwa istilah-istilah seperti "mendekati signifikansi" sering digunakan untuk meningkatkan prospek publikasi. Namun, saya tidak berpikir bahwa penulis dapat disalahkan untuk itu karena budaya publikasi saat ini dalam beberapa ilmu masih sangat bergantung pada "cawan suci" 0,05.

Beberapa masalah ini dibahas dalam:

Gigerenzer, G. (2004). Statistik tanpa pikiran. Jurnal Sosial Ekonomi, 33 (5), 587-606.

Royall, R. (1997). Bukti statistik: paradigma kemungkinan (Vol. 71). Tekan CRC.

Martin R. Vasilev
sumber
1
Anda sedang mencampuradukkan filosofi sains dengan pendekatan Neyman / Pearson jika Anda menambahkan tingkat alpha pada pengujian signifikansi Fisher.
RBirkelbach
5

Lereng yang licin ini memanggil kembali kerangka kerja Fisher vs Neyman / Pearson untuk pengujian signifikansi nol-hipotesis (NHST). Di satu sisi, seseorang ingin membuat penilaian kuantitatif tentang seberapa kecil kemungkinan hasilnya di bawah hipotesis nol (misalnya, ukuran efek). Di sisi lain, pada akhir hari Anda menginginkan keputusan yang terpisah, apakah hasil Anda, atau tidak, kemungkinan disebabkan oleh kebetulan saja. Yang akhirnya kami dapatkan adalah semacam pendekatan hybrid yang tidak terlalu memuaskan.

Dalam sebagian besar disiplin ilmu, p konvensional untuk signifikansi ditetapkan pada 0,05, tetapi benar-benar tidak ada landasan mengapa ini harus terjadi. Ketika saya mengulas sebuah makalah, saya sama sekali tidak punya masalah dengan seorang penulis yang menyebut 0,06 signifikan, atau bahkan 0,07, asalkan metodologinya bagus, dan seluruh gambar, termasuk semua analisis, angka, dll. Menceritakan kisah yang konsisten dan dapat dipercaya. Di mana Anda mengalami masalah adalah ketika penulis mencoba membuat cerita dari data sepele dengan ukuran efek yang kecil. Sebaliknya, saya mungkin tidak sepenuhnya 'percaya' suatu tes praktis bermakna bahkan ketika mencapai p <0,05 konvensional signifikansi. Seorang kolega saya pernah berkata: "Statistik Anda seharusnya hanya mendukung apa yang sudah terlihat dalam angka Anda."

Itu semua berkata, saya pikir Vasilev benar. Mengingat sistem publikasi yang rusak, Anda cukup banyak harus memasukkan nilai p, dan karena itu Anda cukup banyak menggunakan kata 'signifikan' untuk dianggap serius, bahkan jika itu membutuhkan kata sifat seperti "sedikit" (yang saya sukai). Anda selalu bisa memperjuangkannya dalam peer review, tetapi Anda harus sampai di sana dulu.

HEITZ
sumber
5

Perbedaan antara dua nilai-p itu sendiri biasanya tidak signifikan. Jadi, tidak masalah apakah nilai-p Anda adalah 0,05, 0,049, 0,051 ...

Berkenaan dengan nilai-p sebagai ukuran kekuatan asosiasi: Nilai-p tidak secara langsung merupakan ukuran kekuatan asosiasi. Nilai-p adalah probabilitas untuk menemukan data yang ekstrem atau lebih ekstrem seperti data yang telah Anda amati, mengingat parameter dihipotesiskan menjadi 0 (jika seseorang tertarik pada hipotesis nol - lihat komentar Nick Cox). Namun, ini sering kali bukan kuantitas yang diminati peneliti. Banyak peneliti agak tertarik untuk menjawab pertanyaan seperti "berapa probabilitas parameter menjadi lebih besar daripada beberapa nilai cut-off yang dipilih?" Jika ini yang Anda minati, Anda perlu memasukkan informasi sebelumnya tambahan dalam model Anda.

RBirkelbach
sumber
6
Saya setuju dengan semangat ini, tetapi cetakan kecil seperti biasa membutuhkan kewaspadaan total. "diberikan parameter diasumsikan 0": sering, tetapi tidak selalu. Nilai-P dapat dihitung untuk hipotesis lain juga. Juga, untuk "diasumsikan" baca "dihipotesiskan".
Nick Cox
Anda sepenuhnya benar - saya akan mengedit jawaban saya!
RBirkelbach
3

p<αp>α(bukan kekuatan efek, tentu saja). Untuk "continualist" seperti itu, "hampir signifikan" adalah cara yang masuk akal untuk menggambarkan hasil dengan nilai p moderat. Masalah muncul ketika orang mencampurkan kedua filosofi ini - atau lebih buruk lagi, tidak menyadari bahwa keduanya ada. (Ngomong-ngomong - orang sering menganggap peta ini dengan rapi di Neyman / Pearson dan Fisher, tetapi mereka tidak melakukannya; karenanya istilah saya yang kikuk untuk mereka). Lebih detail tentang ini di posting blog tentang hal ini di sini: https://scientistseessquirrel.wordpress.com/2015/11/16/is-nearly-significant-ridiculous/

Stephen Heard
sumber
1

Saya cenderung berpikir mengatakan sesuatu yang hampir signifikan secara statistik tidak benar dari sudut pandang teknis. Setelah Anda menetapkan tingkat toleransi Anda, uji statistik signifikansi ditetapkan. Anda harus kembali ke gagasan distribusi sampel. Jika tingkat toleransi Anda adalah 0,05 dan Anda mendapatkan nilai-p 0,053 maka kebetulan sampel yang digunakan menghasilkan statistik itu. Anda bisa sangat baik mendapatkan sampel lain yang mungkin tidak menghasilkan hasil yang sama - saya percaya kemungkinan yang terjadi didasarkan pada set level toleransi dan bukan pada statistik sampel. Ingatlah bahwa Anda menguji sampel terhadap parameter populasi dan sampel memiliki distribusi sampling sendiri. Jadi menurut saya, ada sesuatu yang signifikan secara statistik atau tidak.

Chris Kwaramba
sumber
0

[0,1]H0hal>α

Ini adalah cerita yang sama sekali berbeda ketika Anda menolak nol, karena nilai-p tidak terdistribusi secara merata H1 tetapi distribusi tergantung pada parameter.

Lihat misalnya Wikipedia .

ingus
sumber
Saya tidak cukup mengikuti Anda. Ya, dalam setiap distribusi berkelanjutan, kemungkinan mendapatkan hasil tepat 0,051 sama dengan kemungkinan mendapatkan hasil tepat 1 - nol. Tetapi pengujian hipotesis meneliti kemungkinan melihat nilai paling tidak ekstrim seperti yang diamati. Anda akan selalu menemukan nilai-p setidaknya sama ekstrimnya dengan 1, tetapi jauh lebih kecil kemungkinannya untuk melihat nilai-p ekstrem seperti 0,051. Apa yang membuat perbedaan itu "tidak berarti"?
Nuclear Wang
Di bawah nol itu adalah sebagai kemungkinan untuk mengamati nilai p dalam interval [0,05,051] seperti halnya untuk mengamati nilai p dalam interval [0,999,1]. Mengamati nilai-p lebih dekat ke ambang batas tidak lebih banyak bukti terhadap 0 karena mengamati nilai-p lainnya di luar area penolakan.
snaut
Beberapa panggilan nilai ap 0,05 signifikan, yang lain menggunakan 0,01 atau 0,1 sebagai ambang batas. Jadi, di antara 3 peneliti yang melakukan analisis yang sama dan menemukan nilai-p 0,03, dua mungkin menyebutnya signifikan dan satu mungkin tidak. Jika mereka semua menemukan nilai p 0,91, tidak ada yang akan menyebutnya signifikan. Nilai p yang mendekati ambang batas berarti lebih banyak orang akan menganggap ada cukup bukti untuk menolak nol. Saya tidak melihat mengapa p = 0,051 dan p = 1 harus dapat dibedakan dalam hal dukungan untuk H1 - beberapa orang dibenarkan akan mendukung H1 dengan p = 0,051; tidak ada yang akan melakukannya dengan p = 1.
Nuclear Wang