Saya khawatir pertanyaan terkait tidak menjawab pertanyaan saya. Kami mengevaluasi kinerja> 2 pengklasifikasi (pembelajaran mesin). Hipotesis Null kami adalah bahwa kinerja tidak berbeda. Kami melakukan tes parametrik (ANOVA) dan non-parametrik (Friedman) untuk mengevaluasi hipotesis ini. Jika signifikan, kami ingin mencari tahu pengklasifikasi mana yang berbeda dalam pencarian pasca-hoc.
Pertanyaan saya ada dua:
1) Apakah koreksi nilai p setelah beberapa pengujian perbandingan diperlukan? Situs Wikipedia bahasa Jerman di "Alphafehler Kumulierung" mengatakan bahwa masalahnya hanya terjadi jika beberapa hipotesis diuji pada data yang sama. Ketika membandingkan pengklasifikasi (1,2), (1,3), (2,3), data hanya tumpang tindih sebagian. Apakah masih diperlukan untuk memperbaiki nilai-p?
2) Koreksi nilai-P sering digunakan setelah pengujian berpasangan dengan uji-t. Apakah itu juga perlu ketika melakukan tes khusus post-hoc, seperti Nemenyi (non-parametrik) atau tes HSD Tukey? Jawaban ini mengatakan "tidak" untuk Tukey's HSD: Apakah tes Tukey HSD benar untuk beberapa perbandingan? . Apakah ada aturan atau saya harus mencari ini untuk setiap tes post-hoc potensial?
Terima kasih!
Jawaban:
Jawaban untuk pertanyaan 1
Anda perlu menyesuaikan beberapa perbandingan jika Anda peduli tentang probabilitas di mana Anda akan membuat kesalahan Tipe I. Kombinasi sederhana percobaan metafora / pemikiran dapat membantu:
Jika Anda tidak peduli dengan kesalahan, dan Anda tidak peduli dengan orang berulang kali dan dengan mengejek mengarahkan perhatian Anda pada kartun tertentu tentang jeli , maka silakan dan jangan menyesuaikan untuk beberapa perbandingan.
Masalah "data yang sama" muncul dalam metode koreksi kesalahan berdasarkan keluarga (misalnya Bonferroni, Holm-Sidák, dll.), Karena konsep "keluarga" agak kabur. Namun, metode tingkat penemuan palsu (misalnya Benjamini dan Hochberg, Benjamini dan Yeuketeli, dll.) Memiliki sifat yang hasilnya kuat di berbagai kelompok kesimpulan.
sumber