Interpretasi dari regresi logistik ordinal

17

Saya menjalankan regresi logistik ordinal ini di R:

mtcars_ordinal <- polr(as.factor(carb) ~ mpg, mtcars)

Saya mendapatkan ringkasan model ini:

summary(mtcars_ordinal)

Re-fitting to get Hessian

Call:
polr(formula = as.factor(carb) ~ mpg, data = mtcars)

Coefficients:
      Value Std. Error t value
mpg -0.2335    0.06855  -3.406

Intercepts:
    Value   Std. Error t value
1|2 -6.4706  1.6443    -3.9352
2|3 -4.4158  1.3634    -3.2388
3|4 -3.8508  1.3087    -2.9425
4|6 -1.2829  1.3254    -0.9679
6|8 -0.5544  1.5018    -0.3692

Residual Deviance: 81.36633 
AIC: 93.36633 

Saya bisa mendapatkan peluang log dari koefisien untuk mpgseperti ini:

exp(coef(mtcars_ordinal))
 mpg 
0.7917679 

Dan peluang log ambang seperti:

exp(mtcars_ordinal$zeta)

       1|2         2|3         3|4         4|6         6|8 
0.001548286 0.012084834 0.021262900 0.277242397 0.574406353 

Dapatkah seseorang memberi tahu saya jika interpretasi saya terhadap model ini benar:

Dengan mpgbertambahnya satu unit, peluang untuk pindah dari kategori 1 carbke salah satu dari 5 kategori lainnya, berkurang sebesar -0,23. Jika peluang log melewati ambang 0,0015, maka nilai prediksi untuk mobil akan menjadi kategori 2 carb. Jika peluang log melewati ambang 0,0121, maka nilai prediksi untuk mobil akan menjadi kategori 3 carb, dan seterusnya.

luciano
sumber

Jawaban:

10

Anda memiliki peluang yang sangat membingungkan dan peluang masuk. Peluang log adalah koefisien; peluang adalah koefisien eksponensial. Selain itu, interpretasi peluang berjalan sebaliknya . (Saya tumbuh dengan pemikiran ekonometrik tentang variabel dependen terbatas, dan interpretasi peluang dari regresi ordinal adalah ... uhm ... lucu bagi saya.) Jadi, pernyataan pertama Anda harus berbunyi, "Seiring mpg bertambahnya satu unit, peluangnya mengamati kategori 1 dari carb vs 5 kategori lainnya meningkat sebesar 21%. "

Sejauh interpretasi ambang berjalan, Anda benar-benar harus memplot semua kurva yang diprediksi untuk dapat mengatakan apa prediksi modal:

mpg   <- seq(from=5, to=40, by=1)
xbeta <- mpg*(-0.2335)
logistic_cdf <- function(x) {
  return( 1/(1+exp(-x) ) )
}

p1 <- logistic_cdf( -6.4706 - xbeta )
p2 <- logistic_cdf( -4.4158 - xbeta ) - logistic_cdf( -6.4706 - xbeta )
p3 <- logistic_cdf( -3.8508 - xbeta ) - logistic_cdf( -4.4158 - xbeta )
p4 <- logistic_cdf( -1.2829 - xbeta ) - logistic_cdf( -3.8508 - xbeta )
p6 <- logistic_cdf( -0.5544 - xbeta ) - logistic_cdf( -1.2829 - xbeta )
p8 <- 1 - logistic_cdf( -0.5544 - xbeta )

plot(mpg, p1, type='l', ylab='Prob')
  lines(mpg, p2, col='red')
  lines(mpg, p3, col='blue')
  lines(mpg, p4, col='green')
  lines(mpg, p6, col='purple')
  lines(mpg, p8, col='brown')
  legend("topleft", lty=1, col=c("black", "red", "blue", "green", "purple", "brown"), 
         legend=c("carb 1", "carb 2", "carb 3", "carb 4", "carb 5", "carb 6"))

masukkan deskripsi gambar di sini

Kurva biru untuk kategori ke-3 tidak pernah mengambil, dan kurva ungu untuk kategori ke-6 juga tidak. Jadi, jika ada yang ingin saya katakan bahwa untuk nilai di mpgatas 27 miliki, kategori yang paling mungkin adalah 1; antara 18 dan 27, kategori 2; antara 4 dan 18, kategori 4; dan di bawah 4, kategori 8. (Saya ingin tahu apa yang sedang Anda pelajari - truk komersial? Sebagian besar mobil penumpang saat ini seharusnya memiliki mpg> 25). Anda mungkin ingin mencoba menentukan titik persimpangan lebih akurat.

Saya juga memperhatikan bahwa Anda memiliki kategori aneh yang masuk 1, 2, 3, 4, lalu 6 (melompati 5), kemudian 8 (melompati 7). Jika 5 dan 7 hilang oleh desain, itu bagus. Jika ini adalah kategori valid yang carbtidak termasuk dalam kategori ini, ini tidak baik.

Tugas
sumber
Perhatikan bagaimana saya menggunakan "pindah dari kategori 1 karbohidrat ke 5 kategori lainnya". Apakah ini salah? Saya berjuang untuk memahami "Ketika mpg meningkat satu unit, peluang mengamati kategori 1 karbohidrat vs 5 kategori lainnya meningkat 21%.". Ini menyiratkan bahwa jika mpg meningkat sekitar 5 unit, akan ada peluang 100% untuk mengamati kategori 1. Tetapi jika mpg telah meningkat sebesar 5 unit, harus ada peluang lebih tinggi untuk mengamati kategori 8, bukan kategori 1.
luciano
3
Saya menambahkan angka; Saya menduga itu akan membuat jawaban Anda lebih mudah diartikan - harap Anda menyukainya. (BTW, dokumentasi untuk ? Mtcars mengatakan bahwa data tersebut adalah hasil tes dari Motor Trends edisi 1974. )
gung - Reinstate Monica
Bisakah seseorang tolong jawab pertanyaan terakhir luciano? Saya menemukan ini sangat menarik.
Erosennin
1
mpg23134515
1
Ketika polrmendefinisikan model sebagai logit P(Y <= k | x) = zeta_k - eta, jika interpretasi @ StasK tidak membaca, "Seiring mpg bertambahnya satu unit, peluang mengamati kategori 1 dari carb vs 5 kategori lainnya meningkat sebesar 26% ( exp(-(-0.2335)) = 1.26)."
moremo
3

Dalam model logit yang dipesan, peluang membentuk rasio probabilitas berada dalam kategori apa pun di bawah ambang tertentu vs probabilitas berada dalam kategori di atas ambang yang sama (misalnya, dengan tiga kategori: Probabilitas berada dalam kategori A atau B vs .C, serta kemungkinan berada dalam kategori A vs B atau C).

Ini mengarah ke model logit P(Y <= k | x) = zeta_k - etaseperti yang ditentukan dalam deskripsi polr(). Oleh karena itu, rasio odds dapat dibangun untuk kategori yang berbeda atau untuk regresi yang berbeda. Yang terakhir, yang lebih umum, membandingkan peluang untuk kategori yang sama tetapi berbeda regressor dan equals

Haidds(ySebuahk|xSebuah)Haidds(ybk|xb) = exp(-(ηSebuah-ηb)).

Rasio peluang untuk berbagai kategori didefinisikan sebagai

Haidds(ysayak|xsaya)Haidds(ysayam|xsaya) = exp(ζk-ζm),

di mana rasio tidak tergantung pada para regressor. Properti ini mengarah ke model peluang proporsional nama alternatif .

Dalam contoh sederhana ini, tetapi mungkin tidak terlalu intuitif, Anda dapat merumuskan: Untuk peningkatan satu unit dalam regressor mpg, peluang mengamati kategori 1 vs mengamati kategori yang lebih tinggi (atau peluang mengamati kategori apa pun di bawah ambang batas tertentu vs. mengamati setiap kategori di atas ambang yang sama) dikalikan dengan 1,26 atau meningkat sebesar 26% ( exp(-(-0.233 - 0)) = 1.263). Jika Anda ingin merumuskan rasio peluang kategori yang berbeda, Anda bisa, misalnya, mengatakan peluang berada di kategori 1 vs kategori apa pun di atas dibandingkan dengan peluang berada di kategori 1 atau 2 vs kategori apa pun di atas sama dengan exp((-6.470) - (-4.415)) = 0.128. Dimana interpretasi yang terakhir tidak terlalu membantu dalam pengaturan khusus ini. Contoh rasio odds untuk berbagai kategori dapat menjadi peluang untuk melanjutkan ke perguruan tinggi dibandingkan dengan peluang untuk melanjutkan ke sekolah menengah.

(ζk-ζk-1)k

moremo
sumber