Kapan nilai-p menipu?

14

Apa kondisi data yang harus kita waspadai, di mana nilai-p mungkin bukan cara terbaik untuk menentukan signifikansi statistik? Apakah ada tipe masalah spesifik yang termasuk dalam kategori ini?

pengguna179
sumber
2
Snarky menjawab: hampir selalu. Ada insentif besar untuk membuat kesalahan Tipe 1 (yaitu, "alarm salah") ketika analis memeriksa data, sehingga hampir semua nilai p yang Anda temui "terlalu" kecil.
statsRus
7
Hanya melempar ini ke luar, tetapi bukankah pertanyaan seperti ini sebaiknya diajukan pada Cross Validated ?
buruzaemon
1
@ Buruzaemon: Mungkin. Saya melakukan pencarian, ini adalah yang paling cocok: stats.stackexchange.com/questions/67320/... Sepertinya tidak ada lebih dari segelintir pertanyaan yang menyentuh ini.
Alex I

Jawaban:

9

Anda bertanya tentang Pengerukan Data , yang merupakan apa yang terjadi ketika menguji sejumlah besar hipotesis terhadap kumpulan data, atau menguji hipotesis terhadap kumpulan data yang disarankan oleh data yang sama.

Secara khusus, periksa beberapa bahaya hipotesis , dan Pengujian hipotesis yang disarankan oleh data .

Solusinya adalah dengan menggunakan beberapa jenis koreksi untuk tingkat penemuan palsu atau tingkat kesalahan Familywise , seperti metode Scheffe ini atau (sangat tua-sekolah) Bonferroni koreksi .

Dalam cara yang agak kurang ketat, mungkin membantu untuk memfilter penemuan Anda dengan interval kepercayaan untuk rasio odds (OR) untuk setiap hasil statistik. Jika interval kepercayaan 99% untuk rasio odds adalah 10-12, maka OR adalah <= 1 dengan beberapa probabilitas yang sangat kecil, terutama jika ukuran sampel juga besar. Jika Anda menemukan sesuatu seperti ini, itu mungkin efek yang kuat bahkan jika itu keluar dari tes jutaan hipotesis.

Alex I
sumber
1
Meskipun Bonferroni sudah tua, itu masih cukup populer. Terkait dengan itu adalah metode yang disebut koreksi Šidák ( en.wikipedia.org/wiki/%C5%A0id%C3%A1k_correction ). Saya menyebutnya, karena dalam sistem iklan penargetan skala besar yang saya kerjakan, kami dapat menerapkan pendekatan ini sebagai UDF di Hive. Namun ini hanya bekerja lebih baik ketika Anda memiliki independensi di antara tes. Jika tidak, Anda harus kembali ke Bonferroni atau metode lain.
Chris Simokat
5

Anda seharusnya tidak mempertimbangkan nilai-p di luar konteks.

Satu hal yang agak mendasar (seperti diilustrasikan oleh xkcd ) adalah Anda perlu mempertimbangkan berapa banyak tes yang sebenarnya Anda lakukan. Jelas, Anda tidak perlu kaget melihat p <0,05 untuk satu dari 20 tes, bahkan jika hipotesis nol itu benar setiap waktu.

Contoh yang lebih halus dari ini terjadi dalam fisika energi tinggi, dan dikenal sebagai efek look-elsewhere . Semakin besar ruang parameter yang Anda cari sinyal yang mungkin mewakili partikel baru, semakin besar kemungkinan Anda melihat sinyal nyata yang benar-benar hanya karena fluktuasi acak.

Tim Goodman
sumber