Saya menggunakan Cohen Kappa untuk menghitung antar-perjanjian antara dua hakim.
Itu dihitung sebagai:
dimana adalah proporsi perjanjian dan probabilitas kesepakatan secara kebetulan.
Sekarang untuk dataset berikut, saya mendapatkan hasil yang diharapkan:
User A judgements:
- 1, true
- 2, false
User B judgements:
- 1, false
- 2, false
Proportion agreed: 0.5
Agreement by chance: 0.625
Kappa for User A and B: -0.3333333333333333
Kita bisa melihat bahwa kedua hakim belum setuju dengan baik. Namun dalam kasus berikut di mana kedua hakim mengevaluasi satu kriteria, kappa mengevaluasi ke nol:
User A judgements:
- 1, false
User B judgements:
- 1, false
Proportion agreed: 1.0
Agreement by chance: 1.0
Kappa for User A and B: 0
Sekarang saya bisa melihat bahwa perjanjian secara kebetulan jelas 1, yang menyebabkan kappa menjadi nol, tetapi apakah ini dianggap sebagai hasil yang dapat diandalkan? Masalahnya adalah saya biasanya tidak memiliki lebih dari dua penilaian per kriteria, jadi ini semua tidak akan pernah mengevaluasi ke kappa yang lebih besar dari 0, yang menurut saya tidak terlalu representatif.
Apakah saya benar dengan perhitungan saya? Bisakah saya menggunakan metode lain untuk menghitung antar-perjanjian?
Di sini kita dapat melihat bahwa kappa berfungsi dengan baik untuk beberapa penilaian:
User A judgements:
- 1, false
- 2, true
- 3, false
- 4, false
- 5, true
User A judgements:
- 1, true
- 2, true
- 3, false
- 4, true
- 5, false
Proportion agreed: 0.4
Agreement by chance: 0.5
Kappa for User A and B: -0.19999999999999996
information-retrieval
tanda di sini.Jawaban:
"Koreksi kebetulan" di Cohenκ memperkirakan probabilitas di mana setiap penilai memilih kategori yang ada. Estimasi berasal dari frekuensi marginal dari kategori. Ketika Anda hanya memiliki 1 penilaian untuk setiap penilai, ini artinyaκ mengasumsikan kategori yang dipilih untuk penilaian tunggal ini secara umum memiliki probabilitas 1. Ini jelas tidak masuk akal karena jumlah penilaian (1) terlalu kecil untuk secara andal memperkirakan tingkat dasar semua kategori.
Alternatif mungkin adalah model binomial sederhana: tanpa informasi tambahan, kita dapat mengasumsikan bahwa probabilitas kesepakatan antara dua penilai untuk satu penilaian adalah 0,5 karena penilaiannya adalah biner. Ini berarti bahwa kami secara implisit menganggap bahwa kedua penilai memilih setiap kategori dengan probabilitas 0,5 untuk semua kriteria. Jumlah perjanjian yang diharapkan secara kebetulan atas semua kriteria kemudian mengikuti distribusi binomial denganp=0.5 .
sumber
Saya menemukan jawaban caracal meyakinkan, tetapi saya juga percaya Kappa Cohen hanya dapat menjelaskan sebagian dari apa yang merupakan keandalan antar penilai. % Sederhana dari peringkat dalam perjanjian menyumbang bagian lain, dan korelasi antara peringkat, sepertiga. Dibutuhkan ketiga metode untuk mendapatkan gambaran lengkap. Untuk detailnya, lihat http://pareonline.net/getvn.asp?v=9&n=4 :
sumber