Bagaimana cara melakukan reliabilitas antar penilai dengan beberapa penilai, penilai yang berbeda per peserta, dan kemungkinan perubahan dari waktu ke waktu?

Peserta dinilai dua kali, dengan 2 peringkat dipisahkan oleh 3 tahun. Untuk sebagian besar peserta peringkat dilakukan oleh penilai yang berbeda, tetapi untuk beberapa (<10%) penilai yang sama melakukan kedua peringkat. Ada 8 penilai sama sekali, dengan 2 melakukan penilaian di kedua titik waktu.

Sekarang, karena peringkat adalah aspek kemampuan dengan nilai "benar" hipotetis, maka kesepakatan absolut antara penilai lebih menarik, daripada konsistensi. Namun, karena peringkat diambil 3 tahun terpisah, mungkin ada (dan mungkin ada) beberapa perubahan nyata dalam kemampuan.

Apa yang akan menjadi tes keandalan terbaik dalam kasus ini?
Saya condong ke arah korelasi intra-kelas, tetapi apakah ICC1 yang terbaik yang bisa saya lakukan dengan data ini?

reliability psychometrics agreement-statistics intraclass-correlation Joyce
sumber

Bagaimana Anda berencana memperhitungkan fakta bahwa beberapa peringkat dilakukan oleh penilai yang sama? Di luar kepala saya, saya tidak bisa memikirkan tindakan apa pun yang memperhitungkannya ketika itu tidak dilakukan secara konsisten. Lagi pula, jika Anda membandingkan penilai yang sama dua kali, Anda melihat konsistensi; jika Anda membandingkan dua penilai, Anda sedang melihat persetujuan. Jadi, ketika Anda mengatakan ingin mengevaluasi "keandalan", itu tidak sepenuhnya jelas apa yang ingin Anda evaluasi.

Jika Anda yakin bahwa tingkat kemampuan subjek kemungkinan telah berubah, penting juga untuk mempertimbangkan bagaimana Anda dapat menjelaskan fakta itu. Apakah Anda memiliki beberapa pengukuran standar emas untuk membandingkan penilai terhadap?

Jadi, secara ringkas, sebelum Anda dapat menilai seberapa andal para penilai, Anda perlu menjawab dua pertanyaan kunci:

Bagaimana Anda bisa mengukur dan mengoreksi perubahan antara titik waktu yang dikaitkan dengan perubahan kemampuan yang sah, alih-alih konsistensi peringkat yang buruk?
Apakah Anda terutama tertarik pada seberapa sering penilai setuju satu sama lain, atau seberapa konsisten mereka menerapkan peringkat?

TARehman
sumber

Terima kasih atas balasan Anda, TARehman. Seperti yang Anda katakan, itu adalah campuran. Saya pikir saya perlu membagi sampel menjadi mereka yang dinilai oleh penilai yang sama dan mereka yang tidak. Kemudian saya akan menjalankan analisis terpisah pada keduanya (intra dan inter-reliabilitas, masing-masing). Mengenai masalah perubahan yang sebenarnya, saya tidak berpikir ada cara

Joyce

Tampak bagi saya bahwa jika Anda membaginya, Anda mungkin dapat menggabungkan skor akhir menjadi meta-reliabilitas, tetapi rencana seperti itu penuh dengan tantangan metodologis. Saya pikir ICC akan menjadi pilihan terbaik Anda. Seperti apa angka Anda (berapa peringkat, individu, dll - kami tahu Anda memiliki 8 penilai)?

TARehman

Jadi, untuk setiap individu n = 800 ada 2 peringkat. Ada 5 peringkat penilai di t1 dan 5 di t2 (8 sama sekali, dengan 2 peringkat di kedua t1 dan t2). 100 orang dinilai oleh penilai yang sama di kedua titik waktu dan 700 memiliki penilai yang berbeda. Saya tidak tahu ICC mana yang paling tepat di sini ...

Joyce

Yah, sepertinya Anda dapat mengatasi salah satu dari dua poin di atas dengan mengabaikan 100 orang yang dinilai oleh penilai yang sama di kedua titik waktu tersebut. Setidaknya itu menjawab pertanyaan tentang apa yang Anda minati: seberapa sering mereka sepakat satu sama lain, atau seberapa konsisten mereka menerapkan peringkat. Karena Anda tidak memiliki cara untuk mengendalikan perubahan nilai yang diharapkan dari waktu ke waktu, saya masih tidak yakin bagaimana Anda akan membahas poin pertama ...

TARehman

Diedit untuk menambahkan: Anda dapat menemukan diskusi Wikipedia tentang aspek ICC ini sebagai ilustrasi: en.wikipedia.org/wiki/… . Secara khusus, ini menyatakan bahwa itu dapat "digunakan untuk menilai konsistensi, atau kesesuaian, pengukuran yang dilakukan oleh banyak pengamat mengukur kuantitas yang sama." Karena penilai dalam kasus ini tidak mengukur kuantitas yang sama, ICC mungkin tidak cocok untuk situasi Anda.

TARehman

Bagaimana cara melakukan reliabilitas antar penilai dengan beberapa penilai, penilai yang berbeda per peserta, dan kemungkinan perubahan dari waktu ke waktu?

Jawaban: