Kapan harus mengoreksi nilai-p dalam beberapa perbandingan?

11

Saya khawatir pertanyaan terkait tidak menjawab pertanyaan saya. Kami mengevaluasi kinerja> 2 pengklasifikasi (pembelajaran mesin). Hipotesis Null kami adalah bahwa kinerja tidak berbeda. Kami melakukan tes parametrik (ANOVA) dan non-parametrik (Friedman) untuk mengevaluasi hipotesis ini. Jika signifikan, kami ingin mencari tahu pengklasifikasi mana yang berbeda dalam pencarian pasca-hoc.

Pertanyaan saya ada dua:

1) Apakah koreksi nilai p setelah beberapa pengujian perbandingan diperlukan? Situs Wikipedia bahasa Jerman di "Alphafehler Kumulierung" mengatakan bahwa masalahnya hanya terjadi jika beberapa hipotesis diuji pada data yang sama. Ketika membandingkan pengklasifikasi (1,2), (1,3), (2,3), data hanya tumpang tindih sebagian. Apakah masih diperlukan untuk memperbaiki nilai-p?

2) Koreksi nilai-P sering digunakan setelah pengujian berpasangan dengan uji-t. Apakah itu juga perlu ketika melakukan tes khusus post-hoc, seperti Nemenyi (non-parametrik) atau tes HSD Tukey? Jawaban ini mengatakan "tidak" untuk Tukey's HSD: Apakah tes Tukey HSD benar untuk beberapa perbandingan? . Apakah ada aturan atau saya harus mencari ini untuk setiap tes post-hoc potensial?

Terima kasih!

Chris
sumber
Mengapa Anda melakukan baik ANOVA dan Friedman tes?
Alexis
Ini tentang kerangka kerja pengujian otomatis yang harus menyediakan resensi dengan alternatif parametrik dan non-parametrik, jika asumsi parametrik tidak terpenuhi.
Chris
1
Tentang tes omnibus yang Anda sebutkan: (A) jika grup data Anda independen, Anda harus menggunakan tes ANOVA (parametrik) atau Kruskal-Wallis (non-parametrik); (B) jika grup Anda tergantung (mis., Tindakan berulang) maka Anda harus menggunakan tes ANOVA (parametrik) atau Friedman (non-parametrik) berulang. (Klasik) ANOVA dan tes Friedman sebagai alternatifnya tidak terdengar benar.
GegznaV

Jawaban:

10

Jawaban untuk pertanyaan 1
Anda perlu menyesuaikan beberapa perbandingan jika Anda peduli tentang probabilitas di mana Anda akan membuat kesalahan Tipe I. Kombinasi sederhana percobaan metafora / pemikiran dapat membantu:

Bayangkan Anda ingin memenangkan lotre. Lotere ini, anehnya, memberi Anda peluang 0,05 untuk menang (yaitu 1 banding 20). M adalah biaya tiket dalam lotere ini, artinya pengembalian yang Anda harapkan untuk satu panggilan lotere adalah M / 20. Sekarang bahkan orang asing, bayangkan bahwa untuk alasan yang tidak diketahui, biaya ini, M , memungkinkan Anda untuk memiliki tiket lotre sebanyak yang Anda inginkan (atau setidaknya lebih dari dua). Berpikir pada diri sendiri "semakin Anda bermain, semakin banyak Anda menang" Anda mengambil banyak tiket. Pengembalian yang diharapkan untuk panggilan lotere tidak lagi M / 20, tetapi sesuatu yang sedikit lebih besar. Sekarang ganti "memenangkan lotre" dengan "membuat kesalahan Tipe I."

Jika Anda tidak peduli dengan kesalahan, dan Anda tidak peduli dengan orang berulang kali dan dengan mengejek mengarahkan perhatian Anda pada kartun tertentu tentang jeli , maka silakan dan jangan menyesuaikan untuk beberapa perbandingan.

Masalah "data yang sama" muncul dalam metode koreksi kesalahan berdasarkan keluarga (misalnya Bonferroni, Holm-Sidák, dll.), Karena konsep "keluarga" agak kabur. Namun, metode tingkat penemuan palsu (misalnya Benjamini dan Hochberg, Benjamini dan Yeuketeli, dll.) Memiliki sifat yang hasilnya kuat di berbagai kelompok kesimpulan.



α

Alexis
sumber
2
+1 untuk jawaban yang komprehensif dan lucu (dan untuk merujuk ke xkcd). Khususnya, Anda juga menangani pertanyaan saya yang belum terverbalisasi apakah ada perbedaan antara "Bonferroni-test" dan "Bonferroni-koreksi". Namun demikian, maukah Anda menjelaskan masalah perbandingan ganda dalam hal uraian masalah saya? Saya mengerti bahwa satu pengklasifikasi adalah seperti kelompok perlakuan tanpa / biru / hijau / ... jelly beans dalam komik.
Chris
pp
Saya pikir itu baik-baik saja, terima kasih banyak! Mungkin perlu waktu lebih lama bagi saya untuk menerapkan contoh lotere pada use case saya, tetapi saya mendapat ide.
Chris
@ Chris mengerti bahwa lotere itu hanya metafora. Jika Anda perlu bantuan menerapkan metode FWER atau FDR, periksa entri Wikipedia, cari pertanyaan terkait di sini, atau, mungkin, ajukan pertanyaan baru tentang itu. :)
Alexis