Saya memiliki kumpulan data 11.000+ item berbeda, yang masing-masing diklasifikasikan pada skala nominal oleh setidaknya 3 penilai berbeda di Mechanical Turk Amazon .
88 penilai yang berbeda memberikan penilaian untuk tugas tersebut, dan tidak ada penilai yang menyelesaikan lebih dari 800 penilaian. Sebagian besar memberikan secara signifikan lebih sedikit dari itu.
Pertanyaan saya adalah ini:
Saya ingin menghitung beberapa ukuran reliabilitas antar penilai untuk peringkat, sesuatu yang lebih baik daripada hanya melihat konsensus. Saya percaya, bagaimanapun, bahwa Fleiss Kappa, yang merupakan ukuran yang saya tahu terbaik, akan membutuhkan kelompok penilai yang konsisten untuk seluruh rangkaian item, dan jadi saya tidak dapat menggunakan Fleiss Kappa untuk memeriksa IRR dengan data saya. Apakah ini benar? Apakah ada metode lain yang bisa saya gunakan?
Saran apa pun akan sangat dihargai!
sumber
Jawaban:
Jika Anda hanya perlu meyakinkan diri sendiri (daripada melaporkan nomor untuk pihak lain), Anda dapat memasukkan model hierarki / campuran silang, dengan item dan penilai menjadi dua efek acak. Kemudian korelasi intraclass untuk penilai adalah [varians dari efek acak penilai] / [varians dari efek acak penilai '+ varians dari efek acak item' (varians dari distribusi logistik =π2/3 )]. Implementasi spesifik tergantung pada platform komputasi yang Anda gunakan; default pada CV adalah R, jadi Anda akan menggunakannya
nlme
, tetapi Anda mungkin memiliki sesuatu yang berbeda seperti SPSS atau Stata.sumber
Lihat alfa Krippendorff. Ini memiliki beberapa keunggulan dibandingkan beberapa tindakan lain seperti Cohen Kappa, Fleiss's Kappa, Cronbach's alpha: sangat kuat untuk kehilangan data (yang saya kumpulkan adalah perhatian utama yang Anda miliki); mampu menangani lebih dari 2 penilai; dan dapat menangani berbagai jenis skala (nominal, ordinal, dll.), dan juga memperhitungkan kesepakatan kebetulan lebih baik daripada beberapa tindakan lain seperti Cohen Kappa.
Perhitungan alpha Krippendorff didukung oleh beberapa paket perangkat lunak statistik, termasuk R (oleh paket irr), SPSS, dll.
Di bawah ini adalah beberapa makalah yang relevan, yang membahas alpha Krippendorff termasuk propertinya dan implementasinya, dan membandingkannya dengan tindakan lain:
Hayes, AF, & Krippendorff, K. (2007). Menjawab panggilan untuk ukuran keandalan standar untuk mengkode data. Metode dan Ukuran Komunikasi, 1 (1), 77-89.
Krippendorff, K. (2004). Keandalan dalam Analisis Konten: Beberapa Kesalahpahaman dan Rekomendasi Umum. Penelitian Komunikasi Manusia, 30 (3), 411-433. doi: 10.1111 / j.1468-2958.2004.tb00738.x
Bab 3 dalam Krippendorff, K. (2013). Analisis Konten: Pengantar Metodologinya (edisi ketiga): Sage.
Ada beberapa makalah teknis tambahan di situs web Krippendorff
sumber