Bagaimana Anda memprediksi kategori respons yang diberikan model regresi logistik ordinal?

13

Saya ingin memprediksi masalah kesehatan. Saya memiliki 3 kategori hasil yang dipesan: 'normal', 'ringan', dan 'berat'. Saya ingin memprediksi ini dari dua variabel prediktor, hasil tes (kontinu, interval kovariat) dan riwayat keluarga dengan masalah ini (ya atau tidak). Dalam sampel saya, probabilitasnya adalah 55% (normal), 35% (ringan), dan 10% (berat). Dalam hal ini, saya selalu bisa memprediksi 'normal' dan benar 55% dari waktu, meskipun ini tidak memberi saya informasi tentang pasien secara individu. Saya cocok dengan model berikut:

the cut point for (y1)^=2.18the cut point for (y2)^=4.27β^test=0.60β^family history=1.05

Asumsikan tidak ada interaksi dan semuanya baik-baik saja dengan model. Konkordansi, c, adalah 60,5%, yang saya pahami sebagai akurasi prediksi maksimum yang diberikan model.

exp(XβcutPoint)(1+exp(XβcutPoint))
cut1 <- -2.18
cut2 <- -4.27
beta <- c(0.6, 1.05)
X    <- rbind(c(3.26, 0), c(2.85, 1))

pred_cat1      <- exp(-1*(X%*%beta)-cut1)/(1+exp(-1*(X%*%beta)-cut1))
pred_cat2.temp <- exp(-1*(X%*%beta)-cut2)/(1+exp(-1*(X%*%beta)-cut2))
pred_cat3      <- 1-pred_cat2.temp
pred_cat2      <- pred_cat2.temp-pred_cat1

predicted_distribution <- cbind(pred_cat1, pred_cat2, pred_cat3)

Yaitu: 1. 0 = 55.1%, 1 = 35.8%, 2 = 9.1%; dan 2. 0 = 35.6%, 1 = 46.2%, 2 = 18.2%. Pertanyaan saya adalah, bagaimana cara saya beralih dari distribusi probabilitas ke kategori respons yang diprediksi?

Saya telah mencoba beberapa kemungkinan menggunakan data sampel, di mana hasilnya diketahui. Jika saya hanya memilih max (probabilitas), akurasi adalah 57%, sedikit peningkatan dari nol, tetapi di bawah konkordansi. Selain itu, dalam sampel, pendekatan ini tidak pernah memilih 'parah', yang benar-benar ingin saya ketahui. Saya mencoba pendekatan Bayesian dengan mengubah probabilitas nol dan model menjadi odds dan kemudian memilih max (rasio odds). Ini memang memilih 'parah' sesekali, tetapi menghasilkan akurasi yang lebih buruk 49,5%. Saya juga mencoba sejumlah kategori yang ditimbang oleh probabilitas dan pembulatan. Ini, sekali lagi, tidak pernah memilih 'parah', dan memiliki akurasi rendah 51,5%.

Apa persamaan yang mengambil informasi di atas dan menghasilkan akurasi optimal (60,5%)?

gung - Pasang kembali Monica
sumber

Jawaban:

11

Yrmslrmpredict.lrm

Frank Harrell
sumber
1
Terima kasih atas bantuan Anda. Saya menduga frekuensi rendah yang parah adalah bagian dari masalah. Saya pikir Y mentah saya, 0 1 2, interval tidak cukup sama. Saya menganggap tujuan saya salah. Sayangnya, saya pikir saya ingin tahu apa kategori pasien baru akan jatuh ke dalam / tidak sepenuhnya memahami apa tujuan saya harus menjadi. Apakah mungkin memberikan sedikit wawasan? (Sebenarnya, saya curiga CV bukanlah forum untuk pelajaran yang lengkap; atau, apakah Anda tahu di mana saya bisa belajar tentang masalah ini? Saya telah membaca bagian-bagian dari Logistic Agrro & Hosmer & Lemeshow dari Agresti, tetapi tidak berhasil.)
gung - Reinstate Monica
1
Tujuannya didorong oleh keputusan yang dibutuhkan atau oleh subjek. Jika Anda menyatakan tujuan akhir saya mungkin bisa berkomentar.
Frank Harrell
Maaf tentang ketidakjelasan saya, sepertinya telah menjadi masalah di atas juga. Saat ini, saya ingin dapat memprediksi hasil untuk kasus baru. Dalam jangka panjang, saya ingin memahami ord log reg lebih baik, misalnya bagaimana Anda mendapatkan residu jika Anda tidak memiliki kategori yang diprediksi? Saya mengumpulkan akurasi yang sedikit lebih baik adalah mungkin, tetapi saya tidak tahu bagaimana cara mendapatkannya. Saya yakin Anda tidak punya waktu untuk menjelaskan semuanya, tetapi Agresti, maupun H&L tidak mengatakan apa-apa tentang prediksi atau residu, dll. Dan saya tidak dapat menemukan apa pun di google. Jadi, saya bertanya pada CV. Saya sangat menghargai bantuan Anda yang berkelanjutan.
gung - Reinstate Monica
Yjj
-1

Konkordansi didefinisikan dengan memeriksa skor rata-rata, bukan skor maksimum.

Jadi untuk contoh Anda, skor rata-rata untuk 1 adalah 0 * 55,1% + 1 * 35,8% + 2 * 9,1% = 0,54, dan 2 adalah (melalui perhitungan yang sama) 0,826.

Nilai inilah yang harus Anda bandingkan untuk mendapatkan konkordansi atau statistik asosiasi lainnya.

Ref - http://support.sas.com/documentation/cdl/en/statug/63347/HTML/default/viewer.htm#statug_logistic_sect042.htm

KalEl
sumber
3
YXβDxy
2
SAS PROC LOGISTY