Saya memiliki beberapa coder independen yang mencoba mengidentifikasi peristiwa dalam rangkaian waktu - dalam hal ini, menonton video percakapan tatap muka dan mencari perilaku nonverbal tertentu (misalnya, anggukan kepala) dan mengkode waktu dan kategori masing-masing peristiwa. Data ini dapat diperlakukan sebagai seri waktu diskrit dengan laju pengambilan sampel tinggi (30 bingkai / detik) atau sebagai seri waktu kontinu, mana yang lebih mudah untuk dikerjakan.
Saya ingin menghitung beberapa tingkat reliabilitas antar penilai, tapi saya berharap akan ada ketidakpastian ketika peristiwa terjadi; yaitu, saya berharap bahwa satu coder mungkin, misalnya, kode bahwa gerakan tertentu mulai seperempat detik lebih lambat dari coders lain pikir itu dimulai. Ini adalah peristiwa langka, jika itu membantu; biasanya setidaknya beberapa detik (ratusan frame video) antara peristiwa.
Apakah ada cara yang baik untuk menilai reliabilitas antar penilai yang melihat pada kedua jenis perjanjian dan ketidaksepakatan ini: (1) apakah penilai setuju pada peristiwa apa yang terjadi (jika ada), dan (2) apakah mereka setuju ketika itu terjadi? Yang kedua penting bagi saya karena saya tertarik melihat waktu kejadian ini relatif terhadap hal-hal lain yang terjadi dalam percakapan, seperti apa yang orang katakan.
Praktik standar di bidang saya tampaknya adalah membagi berbagai hal menjadi irisan waktu, katakanlah sekitar 1/4 detik, gabungkan kejadian yang dilaporkan masing-masing pembuat kode per irisan waktu, lalu hitung kappa Cohen atau ukuran serupa lainnya. Tetapi pilihan durasi irisan adalah ad-hoc, dan saya tidak mendapatkan ide yang baik tentang ketidakpastian waktu acara.
Pikiran terbaik yang saya miliki sejauh ini adalah bahwa saya dapat menghitung semacam kurva reliabilitas; sesuatu seperti kappa sebagai fungsi dari ukuran jendela di mana saya menganggap dua peristiwa sebagai kode pada saat yang sama. Saya tidak begitu yakin ke mana harus pergi dari sana, meskipun ...
Jawaban:
Inilah beberapa cara untuk dipikirkan.
1
A) Anda dapat memperlakukan setiap urutan pengkodean penuh sebagai rangkaian peristiwa yang diperintahkan (yaitu ["anggukan kepala", "guncangan kepala", "anggukan kepala", "alis terangkat"] dan ["anggukan kepala", "guncangan kepala" , "alis terangkat"]), lalu sejajarkan urutan menggunakan algoritma yang masuk akal bagi Anda ( http://en.wikipedia.org/wiki/Sequence_alignment ). Anda kemudian dapat menghitung keandalan antar koder untuk seluruh urutan.
B) Kemudian, sekali lagi menggunakan urutan yang selaras, Anda dapat membandingkan ketika mereka mengatakan suatu peristiwa terjadi, mengingat bahwa mereka berdua mengamati peristiwa tersebut.
2) Sebagai alternatif, Anda dapat memodelkan ini sebagai Hidden Markov Model, dan menggunakan sesuatu seperti algoritma Baumn-Welch untuk menentukan probabilitas yang, mengingat beberapa kejadian aktual, masing-masing pembuat kode mengode data dengan benar. http://en.wikipedia.org/wiki/Baum-Welch_algorithm
sumber
Daripada mengiris data menjadi beberapa bagian yang sewenang-wenang, Anda dapat mempertimbangkan perbedaan waktu yang sebenarnya. Coder 1 melaporkan waktu dan tindakan:
Cara sederhana untuk melihat pembuat kode mana yang paling dapat diandalkan menurut pembuat kode lain adalah dengan memberinya skor seperti ini:
Jika kedekatan penting bagi Anda, pertimbangkan alternatif seperti ini:
Dengan semua informasi masalah yang tersedia, tidaklah sulit untuk mengimplementasikan ide ini dengan cara yang praktis.
sumber