Saya ingin memprediksi masalah kesehatan. Saya memiliki 3 kategori hasil yang dipesan: 'normal', 'ringan', dan 'berat'. Saya ingin memprediksi ini dari dua variabel prediktor, hasil tes (kontinu, interval kovariat) dan riwayat keluarga dengan masalah ini (ya atau tidak). Dalam sampel saya, probabilitasnya adalah 55% (normal), 35% (ringan), dan 10% (berat). Dalam hal ini, saya selalu bisa memprediksi 'normal' dan benar 55% dari waktu, meskipun ini tidak memberi saya informasi tentang pasien secara individu. Saya cocok dengan model berikut:
Asumsikan tidak ada interaksi dan semuanya baik-baik saja dengan model. Konkordansi, c, adalah 60,5%, yang saya pahami sebagai akurasi prediksi maksimum yang diberikan model.
cut1 <- -2.18
cut2 <- -4.27
beta <- c(0.6, 1.05)
X <- rbind(c(3.26, 0), c(2.85, 1))
pred_cat1 <- exp(-1*(X%*%beta)-cut1)/(1+exp(-1*(X%*%beta)-cut1))
pred_cat2.temp <- exp(-1*(X%*%beta)-cut2)/(1+exp(-1*(X%*%beta)-cut2))
pred_cat3 <- 1-pred_cat2.temp
pred_cat2 <- pred_cat2.temp-pred_cat1
predicted_distribution <- cbind(pred_cat1, pred_cat2, pred_cat3)
Yaitu: 1. 0 = 55.1%, 1 = 35.8%, 2 = 9.1%; dan 2. 0 = 35.6%, 1 = 46.2%, 2 = 18.2%. Pertanyaan saya adalah, bagaimana cara saya beralih dari distribusi probabilitas ke kategori respons yang diprediksi?
Saya telah mencoba beberapa kemungkinan menggunakan data sampel, di mana hasilnya diketahui. Jika saya hanya memilih max (probabilitas), akurasi adalah 57%, sedikit peningkatan dari nol, tetapi di bawah konkordansi. Selain itu, dalam sampel, pendekatan ini tidak pernah memilih 'parah', yang benar-benar ingin saya ketahui. Saya mencoba pendekatan Bayesian dengan mengubah probabilitas nol dan model menjadi odds dan kemudian memilih max (rasio odds). Ini memang memilih 'parah' sesekali, tetapi menghasilkan akurasi yang lebih buruk 49,5%. Saya juga mencoba sejumlah kategori yang ditimbang oleh probabilitas dan pembulatan. Ini, sekali lagi, tidak pernah memilih 'parah', dan memiliki akurasi rendah 51,5%.
Apa persamaan yang mengambil informasi di atas dan menghasilkan akurasi optimal (60,5%)?
sumber
Konkordansi didefinisikan dengan memeriksa skor rata-rata, bukan skor maksimum.
Jadi untuk contoh Anda, skor rata-rata untuk 1 adalah 0 * 55,1% + 1 * 35,8% + 2 * 9,1% = 0,54, dan 2 adalah (melalui perhitungan yang sama) 0,826.
Nilai inilah yang harus Anda bandingkan untuk mendapatkan konkordansi atau statistik asosiasi lainnya.
Ref - http://support.sas.com/documentation/cdl/en/statug/63347/HTML/default/viewer.htm#statug_logistic_sect042.htm
sumber
SAS PROC LOGIST