Saya mengevaluasi keefektifan 5 metode berbeda untuk memprediksi hasil biner tertentu (sebut mereka 'Sukses' dan 'Kegagalan'). Data terlihat seperti ini:
Method Sample_Size Success Percent_Success
1 28 4 0.14
2 19 4 0.21
3 24 7 0.29
4 21 13 0.61
5 22 9 0.40
Saya ingin melakukan tes di antara 5 metode ini untuk menilai keunggulan relatif dari metode ini. Dengan kata lain, saya ingin memesan metode dalam urutan kinerja sebagai metode 1> metode 2> ... metode 5. Untuk menghindari masalah beberapa perbandingan, saya berencana untuk melakukan tes permutasi di sepanjang baris berikut:
Langkah 1: Kumpulkan semua data sehingga ukuran sampel keseluruhan adalah 114 dengan keseluruhan 37 keberhasilan.
Langkah 2: Pisahkan data secara acak menjadi 5 kelompok dengan ukuran sampel yang sesuai yaitu 28, 19, 24, 21 dan 22.
Langkah 3: Tambahkan penghitung jika urutan Percent_Success yang diamati dari langkah 2 konsisten dengan urutan data saya.
Langkah 4: Ulangi langkah 2 dan 3 berkali-kali (katakanlah 10000).
Nilai p yang diinginkan = Nilai Penghitung Akhir / 10000.
Pertanyaan:
Apakah prosedur di atas baik-baik saja?
Apakah ada sesuatu dalam R yang akan memungkinkan saya untuk melakukan tes di atas?
Setiap saran untuk perbaikan atau metode alternatif akan sangat membantu.
Jawaban:
Prosedur yang diusulkan tidak menjawab pertanyaan Anda. Itu hanya memperkirakan frekuensi, di bawah hipotesis nol, yang dengannya urutan pengamatan Anda akan terjadi. Namun di bawah nol itu, dengan perkiraan yang baik, semua pesanan memiliki kemungkinan yang sama besar, di mana perhitungan Anda akan menghasilkan nilai mendekati 1/5! = sekitar 0,83%. Itu tidak memberi tahu kita apa-apa.
Satu pengamatan yang lebih jelas: urutan, berdasarkan data Anda, adalah 4> 5> 3> 2> 1. Perkiraan Anda tentang keunggulan relatif mereka adalah 0,61 - 0,40 = 21%, 0,40 - 0,21 = 11%, dll.
Sekarang, anggap pertanyaan Anda menyangkut sejauh mana perbedaan perbedaan dalam proporsi dapat disebabkan oleh kebetulan di bawah hipotesis nol tanpa perbedaan. Anda memang dapat mengevaluasi sepuluh pertanyaan ini dengan tes permutasi. Namun, dalam setiap iterasi Anda perlu melacak sepuluh indikator perbedaan relatif dalam proporsi, bukan satu indikator global dari total pesanan.(52)=10
Untuk data Anda, simulasi dengan 100.000 iterasi memberikan hasil
Perbedaan proporsi antara metode 4 dan metode 1, 2, dan 3 tidak mungkin terjadi karena kebetulan (dengan probabilitas yang diperkirakan masing-masing 0,03%, 0,37%, 0,88%), tetapi perbedaan lainnya mungkin. Ada beberapa bukti (p = 2,44%) dari perbedaan antara metode 1 dan 5. Dengan demikian, Anda dapat memiliki keyakinan bahwa perbedaan dalam proporsi yang terlibat dalam hubungan 4> 3, 4> 2, dan 4> 1 semuanya positif , dan kemungkinan besar perbedaannya adalah 5> 1.
sumber
Prosedur uji permutasi Monte-Carlo yang disarankan Anda akan menghasilkan nilai-p untuk pengujian hipotesis nol bahwa probabilitas keberhasilannya sama untuk semua metode. Tapi ada sedikit alasan untuk melakukan uji permutasi Monte Carlo di sini ketika uji permutasi yang tepat layak dilakukan. Itu uji Fisher yang sebenarnya (well, beberapa orang memesan nama itu untuk tabel 2x2, dalam hal ini adalah uji eksak bersyarat). Saya baru saja mengetik data Anda ke Stata dan -tabi ..., tepatnya- memberi p = 0,0067 (untuk perbandingan, uji chi-squared Pearson memberikan p = 0,0059). Saya yakin ada fungsi setara dalam R yang guru R akan segera tambahkan.
Jika Anda benar-benar ingin melihat peringkat Anda sebaiknya menggunakan pendekatan Bayesian, karena dapat memberikan interpretasi sederhana sebagai probabilitas bahwa setiap metode adalah yang terbaik, terbaik kedua, terbaik ketiga, .... Itu datang pada harga yang mengharuskan Anda untuk meletakkan prioritas pada probabilitas Anda, tentu saja. Estimasi kemungkinan maksimum peringkat hanyalah urutan yang diamati, tetapi sulit untuk mengukur ketidakpastian dalam peringkat dalam kerangka kerja yang sering terjadi dengan cara yang dapat dengan mudah ditafsirkan, sejauh yang saya ketahui.
Saya menyadari bahwa saya belum menyebutkan beberapa perbandingan, tetapi saya hanya tidak melihat bagaimana hal ini terjadi.
sumber