Keandalan antar penilai untuk data ordinal atau interval

25

Metode reliabilitas antar penilai mana yang paling tepat untuk data ordinal atau interval?

Saya percaya bahwa "Probabilitas kesepakatan bersama" atau "Kappa" dirancang untuk data nominal. Sementara "Pearson" dan "Spearman" dapat digunakan, mereka terutama digunakan untuk dua penilai (meskipun mereka dapat digunakan untuk lebih dari dua penilai).

Apa ukuran lain yang cocok untuk data ordinal atau interval, yaitu lebih dari dua penilai?

shadi
sumber

Jawaban:

29

Statistik Kappa ( ) adalah indeks kualitas yang membandingkan perjanjian yang diamati antara 2 penilai pada skala nominal atau ordinal dengan perjanjian yang diharapkan secara kebetulan saja (seolah-olah penilai sedang menyerah). Ekstensi untuk kasus beberapa penilai ada (2, hlm. 284–291). Dalam kasus data ordinal , Anda dapat menggunakan κ tertimbang , yang pada dasarnya dibaca sebagai κ biasa dengan elemen off-diagonal berkontribusi pada ukuran perjanjian. Fleiss (3) memberikan pedoman untuk menafsirkan nilai κ tetapi ini hanyalah aturan praktis.κ κκκ

The statistik adalah asimtotik setara dengan ICC diperkirakan dari dua arah efek acak ANOVA, tapi tes signifikansi dan SE yang berasal dari kerangka ANOVA biasa tidak berlaku lagi dengan data biner. Lebih baik menggunakan bootstrap untuk mendapatkan interval kepercayaan (CI). Fleiss (8) membahas hubungan antara kappa tertimbang dan korelasi intraclass (ICC).κ

Perlu dicatat bahwa beberapa psikometri tidak begitu menyukai karena dipengaruhi oleh prevalensi objek pengukuran seperti nilai prediksi dipengaruhi oleh prevalensi penyakit yang dipertimbangkan, dan ini dapat menyebabkan hasil yang paradoks.κ

Reliabilitas antar penilai untuk penilai dapat diperkirakan dengan koefisien Kendall dari konkordansi, W . Ketika jumlah item atau unit yang diberi peringkat n > 7 , k ( n - 1 ) W χ 2 ( n - 1 ) . (2, hlm. 269–270). Perkiraan asimptotik ini berlaku untuk nilai moderat n dan k (6), tetapi dengan kurang dari 20 item F atau tes permutasi lebih cocok (7). Ada hubungan dekat antara Spearman ρ dan Kendall's WkWn>7k(n-1)Wχ2(n-1)nkFρWstatistik: dapat langsung dihitung dari rata-rata korelasi Spearman berpasangan (hanya untuk pengamatan yang tidak terikat).W

Korelasi polikorik (data ordinal) juga dapat digunakan sebagai ukuran kesepakatan antar penilai. Memang, mereka mengizinkan

  • memperkirakan apa yang akan menjadi korelasi jika peringkat dibuat pada skala berkelanjutan,
  • uji homogenitas marginal antara penilai.

Bahkan, dapat ditunjukkan bahwa ini adalah kasus khusus pemodelan sifat laten, yang memungkinkan untuk mengendurkan asumsi distribusi (4).

Tentang pengukuran kontinu (atau lebih diasumsikan), ICC yang mengukur proporsi varians yang disebabkan oleh variasi antar-subjek baik-baik saja. Sekali lagi, CI bootstraped direkomendasikan. Seperti kata @ars, pada dasarnya ada dua versi - perjanjian dan konsistensi - yang berlaku dalam kasus studi perjanjian (5), dan yang terutama berbeda pada cara jumlah kuadrat dihitung; "konsistensi" ICC umumnya diperkirakan tanpa mempertimbangkan interaksi Item × Rater. Kerangka kerja ANOVA bermanfaat dengan desain blok khusus di mana orang ingin meminimalkan jumlah peringkat ( BIBD ) - pada kenyataannya, ini adalah salah satu motivasi asli dari karya Fleiss. Ini juga cara terbaik untuk menggunakan banyak penilai. Perpanjangan alami dari pendekatan ini disebut Teori Generalizability . Tinjauan singkat diberikan dalam Model Penilai: Pengantar , jika tidak, referensi standar adalah buku Brennan, ditinjau dalam Psychometrika 2006 71 (3) .

Mengenai referensi umum, saya merekomendasikan bab 3 dari Statistics in Psychiatry , dari Graham Dunn (Hodder Arnold, 2000). Untuk perawatan yang lebih lengkap dari studi reliabilitas, referensi terbaik hingga saat ini adalah

Dunn, G (2004). Desain dan Analisis Studi Keandalan . Arnold. Lihat ulasan di International Journal of Epidemiology .

Pengantar online yang baik tersedia di situs web John Uebersax, Intraclass Correlation, dan Metode Terkait ; itu termasuk diskusi tentang pro dan kontra dari pendekatan ICC, terutama yang berkaitan dengan skala ordinal.

Paket R yang relevan untuk penilaian dua arah (pengukuran ordinal atau kontinu) ditemukan di Tampilan Tugas Psikometrik ; Saya biasanya menggunakan paket psy , psych , atau irr . Ada juga paket persetujuan tetapi saya tidak pernah menggunakannya. Untuk berurusan dengan lebih dari dua penilai, paket lme4 adalah cara untuk membuatnya memungkinkan untuk dengan mudah memasukkan efek acak, tetapi sebagian besar desain keandalan dapat dianalisis menggunakan aov()karena kita hanya perlu memperkirakan komponen varian.

Referensi

  1. J Cohen. Kappa tertimbang: Perjanjian skala nominal dengan ketentuan untuk skala ketidaksepakatan kredit parsial. Buletin Psikologis , 70 , 213–220, 1968.
  2. S Siegel dan Jr N John Castellan. Statistik Nonparametrik untuk Ilmu Perilaku . McGraw-Hill, edisi kedua, 1988.
  3. JL Fleiss. Metode Statistik untuk Tarif dan Proporsi . New York: Wiley, Edisi kedua, 1981.
  4. JS Uebersax. Koefisien korelasi tetrakorik dan polikorik . Metode Statistik untuk situs web Perjanjian Penilai, 2006. Tersedia di: http://john-uebersax.com/stat/tetra.htm . Diakses 24 Februari 2010.
  5. PE Shrout dan JL Fleiss. Korelasi intraclass: Penggunaan dalam menilai keandalan penilai . Buletin Psikologis , 86 , 420–428, 1979.
  6. MG Kendall dan B Babington Smith. Masalah peringkat m . Sejarah Statistik Matematika , 10 , 275–287, 1939.
  7. P. Legendre Koefisien konkordansi . Di NJ Salkind, editor, Encyclopedia of Research Design . SAGE Publications, 2010.
  8. JL Fleiss. Kesetaraan kappa tertimbang dan koefisien korelasi intraclass sebagai ukuran keandalan . Pengukuran Pendidikan dan Psikologis , 33 , 613-619, 1973.
chl
sumber
3
Tiga referensi tambahan: 1. Beyond Kappa: Tinjauan langkah-langkah perjanjian antar penatua oleh Mousumi Banerjee, Michelle Capozzoli, Laura McSweeney, & Debajyoti Sinha 2. Keandalan antar penilai dan perjanjian peringkat kinerja: Perbandingan metodologis oleh John W. Fleenor, Julie B. Fleenor & William F. Grossnickle
M. Tibbits
3. Metode statistik untuk menilai kesalahan pengukuran (reliabilitas) dalam variabel yang relevan dengan kedokteran olahraga. oleh Atkinson G & Nevill AM. Referensi pertama khusus untuk data ordinal dan membahas langkah-langkah lain di luar kappa untuk data ordinal. Yang kedua dan ketiga khusus untuk data interval.
M. Tibbits
(+1) Terima Kasih M. Tibbits! Saya biasanya memberikan banyak referensi dan contoh selama kuliah saya di psikometrik, termasuk yang pertama Anda kutip, tetapi saya tidak tahu dua lainnya.
chl
Sebagai tambahan, paket ordinal memungkinkan pemodelan multi-level seperti lme4 tetapi dengan regresi ordinal.
John