Menghitung varians Kappa Cohen (dan kesalahan standar)

44

Statistik Kappa ( ) diperkenalkan pada tahun 1960 oleh Cohen [1] untuk mengukur kesepakatan antara dua penilai. Perbedaannya, bagaimanapun, telah menjadi sumber kontradiksi untuk beberapa waktu.κ

Pertanyaan saya adalah tentang perhitungan varians mana yang terbaik untuk digunakan dengan sampel besar. Saya cenderung percaya bahwa yang diuji dan diverifikasi oleh Fleiss [2] akan menjadi pilihan yang tepat, tetapi ini tampaknya bukan satu-satunya yang diterbitkan yang tampaknya benar (dan digunakan di seluruh literatur yang cukup baru).

Saat ini saya memiliki dua cara konkret untuk menghitung varians sampel besar asimptotiknya:

  • Metode yang diperbaiki diterbitkan oleh Fleiss, Cohen dan Everitt [2];
  • Metode delta yang dapat ditemukan dalam buku oleh Colgaton, 2009 [4] (halaman 106).

Untuk mengilustrasikan beberapa kebingungan ini, berikut adalah kutipan oleh Fleiss, Cohen dan Everitt [2], penekanan pada saya:

Banyak usaha manusia telah dikutuk dengan kegagalan berulang sebelum keberhasilan akhir dicapai. Penskalaan Gunung Everest adalah salah satu contohnya. Penemuan Northwest Passage adalah yang kedua. Derivasi dari kesalahan standar yang benar untuk kappa adalah yang ketiga .

Jadi, inilah ringkasan kecil dari apa yang terjadi:

  • 1960: Cohen menerbitkan makalahnya "Koefisien kesepakatan untuk skala nominal" [1] memperkenalkan ukuran kesepakatan yang diperbaiki secara kebetulan antara dua penilai yang disebut . Namun, ia menerbitkan formula yang salah untuk perhitungan varians.κ
  • 1968: Everitt mencoba untuk memperbaikinya, tetapi formulanya juga salah.
  • 1969: Fleiss, Cohen dan Everitt menerbitkan formula yang benar di koran "Contoh Besar Kesalahan Standar Kappa dan Weighted Kappa" [2]
  • 1971: Fleiss menerbitkan statistik lain (tetapi yang berbeda) dengan nama yang sama, dengan formula yang salah untuk varians.κ
  • 1979: Fleiss Nee dan Landis menerbitkan formula yang diperbaiki untuk Fleiss ' .κ

Pada awalnya, perhatikan notasi berikut. Notasi ini menyiratkan operator penjumlahan harus diterapkan ke semua elemen dalam dimensi di mana titik ditempatkan:

   pi.=j=1kpij    p.j=i=1kpij

Sekarang, seseorang dapat menghitung Kappa sebagai:

   κ^=popc1pe

Di mana

   po=i=1kpii adalah perjanjian yang diamati, dan

   pc=i=1kpi.p.i adalah perjanjian kebetulan.

Sejauh ini, perhitungan varian yang benar untuk Cohen diberikan oleh:κ

   var^(κ^)=1N(1pc)4{i=1kpii[(1po)(p.i+pi.)(1po)]2   +(1po)2i=1kj=1ijkpij(p.i+pj.)2(popc2pc+po)2}

dan di bawah hipotesis nol itu diberikan oleh:

   var^(κ^)=1N(1pc)2{i=1kp.ipi.[1(p.i+pi.)2]+i=1kj=1,ijkp.ipj.(p.i+pj.)2pc2}

Metode Congalton tampaknya didasarkan pada metode delta untuk mendapatkan varian (Agresti, 1990; Agresti, 2002); Namun saya tidak yakin apa metode delta itu atau mengapa itu harus digunakan. The varians, dengan metode ini, diberikan oleh:κ

   var^(κ^)=1n{θ1(1θ1)(1θ2)2+2(1θ1)(2θ1θ2θ3)(1θ2)3+(1θ1)2(θ44θ22)(1θ2)4}

di mana

   θ1=1ni=1knii

   θ2=1n2i=1kni+n+i

   θ3=1n2i=1knii(ni++n+i)

   θ4=1n3i=1kj=1knij(nj++n+i)2

(Congalton menggunakan subskrip daripada , Tetapi tampaknya berarti hal yang sama. Selain itu, saya mengandaikan bahwa harus menjadi matriks penghitungan, yaitu matriks kebingungan sebelum dibagi dengan jumlah sampel sebagai terkait dengan rumus )+.nijpij=nijsamples

Bagian aneh lainnya adalah bahwa buku Colgaton tampaknya merujuk pada makalah asli oleh Cohen, tetapi tampaknya tidak mengutip koreksi terhadap varian Kappa yang diterbitkan oleh Fleiss et al, tidak sampai ia melanjutkan untuk membahas Kappa tertimbang. Mungkin publikasi pertamanya ditulis ketika formula asli untuk kappa masih hilang dalam kebingungan?

Apakah ada yang bisa menjelaskan mengapa perbedaan itu? Atau mengapa seseorang menggunakan varians metode delta alih-alih versi yang diperbaiki oleh Fleiss?

[1]: Fleiss, Joseph L.; Cohen, Yakub; Everitt, BS; Sampel besar kesalahan standar kappa dan kappa tertimbang. Buletin Psikologis, Vol 72 (5), November 1969, 323-327. doi: 10.1037 / h0028106

[2]: Cohen, Jacob (1960). Koefisien kesepakatan untuk skala nominal. Pengukuran Pendidikan dan Psikologis 20 (1): 37–46. DOI: 10.1177 / 001316446002000104.

[3]: Alan Agresti, Analisis Data Kategorikal, edisi ke-2. John Wiley and Sons, 2002.

[4]: Russell G. Congalton dan Green, K .; Menilai Keakuratan Data Sensed Remote: Prinsip dan Praktek, edisi ke-2. 2009

Cesar
sumber
beberapa tanda kurung Anda tidak aktif, bisakah Anda memperbaikinya? Juga, Anda mungkin ingin memformat kurung bersarang sebagai {[(x + y) ^ z + a] ^ b - c} untuk membuatnya lebih mudah dibaca.
Tugas
juga, tolong berikan sendiri, dan formulasi setara alternatif jika ada. Bergantung pada formulasi alternatif spesifik, ekspresi varian mungkin lebih mudah didapat. (Saya sedang memikirkan indeks Gini, yang terdapat lima atau lebih formulasi untuk data iid yang menyiratkan penduga varians yang sangat berbeda untuk data survei yang kompleks.)κ
StasK
Terima kasih untuk umpan baliknya. Saya telah mengoreksi formula dan menambahkan bagaimana Kappa dihitung. Formulasi Kappa tampaknya konsisten di seluruh literatur, hanya variansnya tidak.
Cesar
1
Ngomong-ngomong, saya baru saja memperhatikan apa yang tampaknya menjadi kesalahan pencetakan pada buku Colgaton: ia mendefinisikan , tetapi ini datang entah dari mana. Saya kira itu dimaksudkan untuk , kalau tidak saya tidak yakin itu masuk akal. pc=i=1kpi+p+jjpc=i=1kpi+p+i
Cesar
2
Setidaknya saya bisa membantu Anda dengan bagian ini: "Saya tidak yakin apa metode delta itu" - en.wikipedia.org/wiki/Delta_method dan varians di sana berasal dari sini
Glen_b

Jawaban:

7

Saya tidak tahu mana dari dua cara untuk menghitung varians yang lebih disukai tetapi saya bisa memberi Anda cara ketiga, praktis dan berguna untuk menghitung interval kepercayaan / kredibel dengan menggunakan estimasi Bayesian dari Cohen Kappa.

Kode R dan JAGS di bawah ini menghasilkan sampel MCMC dari distribusi posterior nilai kredibel Kappa yang diberikan data.

library(rjags)
library(coda)
library(psych)

# Creating some mock data
rater1 <- c(1, 2, 3, 1, 1, 2, 1, 1, 3, 1, 2, 3, 3, 2, 3) 
rater2 <- c(1, 2, 2, 1, 2, 2, 3, 1, 3, 1, 2, 3, 2, 1, 1) 
agreement <- rater1 == rater2
n_categories <- 3
n_ratings <- 15

# The JAGS model definition, should work in WinBugs with minimal modification
kohen_model_string <- "model {
  kappa <- (p_agreement - chance_agreement) / (1 - chance_agreement)
  chance_agreement <- sum(p1 * p2)

  for(i in 1:n_ratings) {
    rater1[i] ~ dcat(p1)
    rater2[i] ~ dcat(p2)
    agreement[i] ~ dbern(p_agreement)
  }

  # Uniform priors on all parameters
  p1 ~ ddirch(alpha)
  p2 ~ ddirch(alpha)
  p_agreement ~ dbeta(1, 1)
  for(cat_i in 1:n_categories) {
    alpha[cat_i] <- 1
  }
}"

# Running the model
kohen_model <- jags.model(file = textConnection(kohen_model_string),
                 data = list(rater1 = rater1, rater2 = rater2,
                   agreement = agreement, n_categories = n_categories,
                   n_ratings = n_ratings),
                 n.chains= 1, n.adapt= 1000)

update(kohen_model, 10000)
mcmc_samples <- coda.samples(kohen_model, variable.names="kappa", n.iter=20000)

Plot di bawah ini menunjukkan plot kerapatan sampel MCMC dari distribusi posterior Kappa.

Kepadatan Kappa posterior

Menggunakan sampel MCMC kita sekarang dapat menggunakan nilai median sebagai perkiraan Kappa dan menggunakan 2,5% dan 97,5% kuantil sebagai interval kepercayaan / kredibilitas 95%.

summary(mcmc_samples)$quantiles
##      2.5%        25%        50%        75%      97.5% 
## 0.01688361 0.26103573 0.38753814 0.50757431 0.70288890 

Bandingkan ini dengan perkiraan "klasik" yang dihitung menurut Fleiss, Cohen dan Everitt:

cohen.kappa(cbind(rater1, rater2), alpha=0.05)
##                  lower estimate upper
## unweighted kappa  0.041     0.40  0.76

Secara pribadi saya lebih suka interval kepercayaan Bayesian daripada interval kepercayaan klasik, terutama karena saya percaya interval kepercayaan Bayesian memiliki sifat sampel kecil yang lebih baik. Masalah umum yang cenderung dimiliki orang dengan analisis Bayesian adalah bahwa Anda harus menentukan keyakinan sebelumnya mengenai distribusi parameter. Untungnya, dalam hal ini, mudah untuk membangun prior "objektif" dengan hanya meletakkan distribusi seragam di semua parameter. Ini harus membuat hasil model Bayesian sangat mirip dengan perhitungan "klasik" dari koefisien Kappa.

Referensi

Sanjib Basu, Mousumi Banerjee dan Ananda Sen (2000). Bayesian Inference for Kappa dari Studi Tunggal dan Berganda. Biometrik , Vol. 56, No. 2 (Juni, 2000), hlm. 577-582

Rasmus Bååth
sumber
Apakah Anda tahu jika ada perpanjangan ini untuk lebih dari dua penilai?
Fomite