Koefisien korelasi intraclass vs. F-test (ANOVA satu arah)?

10

Saya agak bingung mengenai koefisien korelasi intraclass dan ANOVA satu arah. Seperti yang saya pahami, keduanya memberi tahu Anda bagaimana pengamatan serupa dalam suatu kelompok, relatif terhadap pengamatan pada kelompok lain.

Bisakah seseorang menjelaskan ini sedikit lebih baik, dan mungkin menjelaskan situasi di mana masing-masing metode lebih menguntungkan?

blep
sumber
Silakan, luangkan waktu untuk melihat keandalan atau tag antar-penilai . ICC didasarkan pada tabel ANOVA, tetapi idenya adalah hanya untuk menganalisis komponen varians daripada menghasilkan statistik uji tunggal dengan tahu sifat distribusi, seperti uji-F. Aplikasi apa yang Anda pikirkan?
chl
@ chl Saya ingin menganalisis skor individual untuk data yang dikelompokkan. Saya telah melihat beberapa makalah yang meneliti perbedaan antara skor orang tua dan anak-anak, menggunakan ICC untuk mengetahui apakah ada perbedaan yang signifikan dalam tanggapan orang tua vs anak-anak. Saya pikir ICC adalah apa yang saya inginkan di sini, tetapi seperti yang saya sebutkan, saya tidak benar-benar mengerti perbedaan antara keduanya. Saya ragu untuk bertanya lebih lanjut, tetapi apakah Anda tahu ada referensi (dasar) yang bagus? Latar belakang statistik saya berhenti pada regresi linier, dan saya merasa seperti saya mengajukan pertanyaan yang tidak diformulasikan dengan baik. Terima kasih.
blep
Sepertinya Anda telah memasangkan data. Ketika mempertimbangkan kelompok yang berbeda (orang tua vs anak-anak mereka) dan menggunakan ICC untuk melaporkan keandalan skor, Anda akan membuang sebagian informasi, yaitu apakah peringkat dari orang tua dan kerabat mereka bertindak secara konsisten. Dua ICC Anda hanya akan memberi tahu Anda apakah kedua seri skor, yang dianggap independen, "dapat diandalkan", dalam arti bahwa sebagian besar varian mungkin diperhitungkan oleh efek penilai. (...)
chl
(...) Singkatnya, jika Anda ingin menunjukkan bahwa peringkat orang tua lebih dapat diandalkan daripada yang anak-anak, maka menggunakan ICC baik-baik saja; jika, di sisi lain, Anda ingin mempelajari bagaimana peringkat orang tua berhubungan dengan peringkat anak-anak, maka Anda mungkin menggunakan jenis analisis lain (tepatnya, analisis data diad).
chl

Jawaban:

17

Kedua metode mengandalkan ide yang sama, yaitu menguraikan varian yang diamati menjadi bagian atau komponen yang berbeda. Namun, ada perbedaan halus dalam apakah kita menganggap barang dan / atau penilai sebagai efek tetap atau acak. Selain mengatakan bagian mana dari total variabilitas yang dijelaskan oleh faktor antara (atau seberapa banyak perbedaan antara menyimpang dari varians residual), uji-F tidak banyak bicara. Setidaknya ini berlaku untuk ANOVA satu arah di mana kami mengasumsikan efek tetap (dan yang sesuai dengan ICC (1,1) yang dijelaskan di bawah). Di sisi lain, ICC menyediakan indeks terikat ketika menilai keandalan peringkat untuk beberapa penilai yang "dapat ditukar", atau homogenitas di antara unit analitis.

Kami biasanya membuat perbedaan berikut antara berbagai jenis ICC. Ini mengikuti dari karya mani Shrout dan Fleiss (1979):

  • Model efek acak satu arah , ICC (1,1): setiap item dinilai oleh penilai berbeda yang dianggap sebagai sampel dari kelompok penilai potensial yang lebih besar, karenanya mereka diperlakukan sebagai efek acak; ICC kemudian ditafsirkan sebagai% dari total varians yang diperhitungkan oleh varians subyek / item. Ini disebut konsistensi ICC.
  • Model efek acak dua arah , ICC (2,1): kedua faktor - penilai dan item / subjek - dipandang sebagai efek acak, dan kami memiliki dua komponen varians (atau kuadrat rata-rata) di samping varian residual; kami selanjutnya mengasumsikan bahwa penilai menilai semua item / subjek; ICC memberikan dalam kasus ini% dari perbedaan yang disebabkan oleh penilai + item / mata pelajaran.
  • Model campuran dua arah , ICC (3,1): bertentangan dengan pendekatan satu arah, di sini penilai dianggap sebagai efek tetap (tidak ada generalisasi di luar sampel yang ada), tetapi item / subjek diperlakukan sebagai efek acak; unit analisis mungkin individu atau peringkat rata-rata.

Ini sesuai dengan kasus 1 hingga 3 dalam Tabel 1. Perbedaan tambahan dapat dibuat tergantung pada apakah kami menganggap bahwa peringkat yang diamati adalah rata-rata dari beberapa peringkat (mereka disebut ICC (1, k), ICC (2, k), dan ICC (3, k)) atau tidak.

Singkatnya, Anda harus memilih model yang tepat (satu arah vs dua arah), dan ini sebagian besar dibahas dalam makalah Shrout dan Fleiss. Model satu arah cenderung menghasilkan nilai yang lebih kecil daripada model dua arah; juga, model efek acak umumnya menghasilkan nilai lebih rendah daripada model efek tetap. ICC yang berasal dari model efek tetap dianggap sebagai cara untuk menilai konsistensi penilai (karena kami mengabaikan varian penilai), sedangkan untuk model efek-acak kita berbicara tentang perkiraan perjanjian penilai (apakah penilai dapat dipertukarkan atau tidak). Hanya model dua arah yang menggabungkan interaksi subjek rater x, yang mungkin menarik ketika mencoba mengungkap pola peringkat yang tidak tipikal.

Ilustrasi berikut adalah salinan / tempel contoh dari ICC()dalam paket psik (data berasal dari Shrout dan Fleiss, 1979). Data terdiri dari 4 juri (J) dengan 6 subjek atau target (S) dan dirangkum di bawah ini (saya akan berasumsi bahwa data itu disimpan sebagai R matriks bernama sf)

   J1 J2 J3 J4
S1  9  2  5  8
S2  6  1  3  2
S3  8  4  6  8
S4  7  1  2  6
S5 10  5  6  9
S6  6  2  4  7

Contoh ini menarik karena menunjukkan bagaimana pilihan model dapat mempengaruhi hasil, oleh karena itu interpretasi studi reliabilitas. Semua 6 model ICC adalah sebagai berikut (ini adalah Tabel 4 dalam makalah Shrout dan Fleiss)

Intraclass correlation coefficients 
                         type  ICC    F df1 df2       p lower bound upper bound
Single_raters_absolute   ICC1 0.17  1.8   5  18 0.16477      -0.133        0.72
Single_random_raters     ICC2 0.29 11.0   5  15 0.00013       0.019        0.76
Single_fixed_raters      ICC3 0.71 11.0   5  15 0.00013       0.342        0.95
Average_raters_absolute ICC1k 0.44  1.8   5  18 0.16477      -0.884        0.91
Average_random_raters   ICC2k 0.62 11.0   5  15 0.00013       0.071        0.93
Average_fixed_raters    ICC3k 0.91 11.0   5  15 0.00013       0.676        0.99

Seperti dapat dilihat, mempertimbangkan penilai sebagai efek tetap (karenanya tidak mencoba untuk menggeneralisasi ke penampung penilai yang lebih luas) akan menghasilkan nilai yang jauh lebih tinggi untuk homogenitas pengukuran. (Hasil serupa dapat diperoleh dengan paket irr ( icc()), meskipun kita harus bermain dengan opsi berbeda untuk tipe model dan unit analisis.)

Apa yang dikatakan oleh pendekatan ANOVA kepada kita? Kita perlu mencocokkan dua model untuk mendapatkan kotak mean yang relevan:

  • model satu arah yang hanya mempertimbangkan subjek; ini memungkinkan untuk memisahkan target yang sedang dinilai (antara MS grup, BMS) dan mendapatkan estimasi istilah dalam kesalahan (WMS)
  • model dua arah yang mempertimbangkan subjek + rater + interaksinya (ketika tidak ada replikasi, istilah terakhir ini akan dikacaukan dengan residu); ini memungkinkan untuk memperkirakan efek utama penilai (JMS) yang dapat dipertanggungjawabkan jika kita ingin menggunakan model efek acak (yaitu, kita akan menambahkannya ke total variabilitas)

Tidak perlu melihat F-test, hanya MS yang menarik di sini.

library(reshape)
sf.df <- melt(sf, varnames=c("Subject", "Rater"))
anova(lm(value ~ Subject, sf.df))
anova(lm(value ~ Subject*Rater, sf.df))

Sekarang, kita dapat mengumpulkan potongan-potongan yang berbeda dalam Tabel ANOVA diperpanjang yang terlihat seperti yang ditunjukkan di bawah ini (ini adalah Tabel 3 di kertas Shrout dan Fleiss):


(sumber: mathurl.com )

di mana dua baris pertama berasal dari model satu arah, sedangkan dua yang berikutnya berasal dari ANOVA dua arah.

Sangat mudah untuk memeriksa semua formula dalam artikel Shrout dan Fleiss, dan kami memiliki semua yang kami butuhkan untuk memperkirakan keandalan untuk penilaian tunggal . Bagaimana dengan reliabilitas untuk rata-rata penilaian berganda (yang sering kali adalah jumlah minat dalam studi antar-penilai)? Mengikuti Hays dan Revicki (2005), ini dapat diperoleh dari dekomposisi di atas dengan hanya mengubah total MS yang dipertimbangkan dalam penyebut, kecuali untuk model dua arah efek acak yang mana kita harus menulis ulang rasio MS.

  • Dalam kasus ICC (1,1) = (BMS-WMS) / (BMS + (k-1) • WMS), reliabilitas keseluruhan dihitung sebagai (BMS-WMS) / BMS=0.443.
  • Untuk ICC (2,1) = (BMS-EMS) / (BMS + (k-1) • EMS + k • (JMS-EMS) / N), keandalan keseluruhan adalah (N • (BMS-EMS)) / (N • BMS + JMS-EMS) = 0,620.
  • Akhirnya, untuk ICC (3,1) = (BMS-EMS) / (BMS + (k-1) • EMS), kami memiliki keandalan (BMS-EMS) /BMS=0.909.

Sekali lagi, kami menemukan bahwa keandalan keseluruhan lebih tinggi ketika mempertimbangkan penilai sebagai efek tetap.

Referensi

  1. Shrout, PE dan Fleiss, JL (1979). Korelasi intraclass: Penggunaan dalam menilai keandalan penilai . Buletin Psikologis , 86, 420-3428.
  2. Hays, RD dan Revicki, D. (2005). Keandalan dan validitas (termasuk daya tanggap). Dalam Fayers, P. dan Hays, RD (eds.), Menilai Kualitas Hidup dalam Uji Klinis , edisi ke-2, hal. 25-39. Oxford University Press.
chl
sumber