Memahami prediksi dari regresi logistik

13

Prediksi saya yang berasal dari model regresi logistik (glm dalam R) tidak dibatasi antara 0 dan 1 seperti yang saya harapkan. Pemahaman saya tentang regresi logistik adalah bahwa parameter input dan model Anda digabungkan secara linear dan responsnya diubah menjadi probabilitas menggunakan fungsi tautan logit. Karena fungsi logit dibatasi antara 0 dan 1, saya perkirakan prediksi saya dibatasi antara 0 dan 1.

Namun bukan itu yang saya lihat ketika saya menerapkan regresi logistik di R:

data(iris)
iris.sub <- subset(iris, Species%in%c("versicolor","virginica"))
model    <- glm(Species ~ Sepal.Length + Sepal.Width, data = iris.sub, 
                family = binomial(link = "logit"))
hist(predict(model))

masukkan deskripsi gambar di sini

Jika ada hasil prediksi (model) terlihat normal bagi saya. Adakah yang bisa menjelaskan kepada saya mengapa nilai yang saya dapatkan bukan probabilitas?

Adrian
sumber
3
Jawaban Corone di bawah ini mencakup detail dengan sangat baik. Angka asli yang Anda miliki di atas menyajikan nilai log-odds pada sumbu x, yang dapat ditransformasikan secara matematis menjadi probabilitas (yaitu sesuai jawaban Corone, dengan meneruskan kembali melalui fungsi tautan.)
James Stanley

Jawaban:

16

The predict.glmMetode secara default mengembalikan prediktor pada skala prediktor linear. Yaitu mereka belum melalui fungsi tautan.

Mencoba

hist(predict(model, type = "response"))

sebagai gantinya

masukkan deskripsi gambar di sini

Corone
sumber
4
Anda telah melakukan pekerjaan hebat dengan menguasai kemampuan markup dan ilustrasi kami dalam waktu singkat: jawaban ini adalah contoh yang bagus untuk itu. Sudah selesai dilakukan dengan baik!
whuber