Regresi Logistik - Istilah Kesalahan dan Distribusi

31

Tentang apakah ada istilah kesalahan dalam regresi logistik (dan distribusi yang diasumsikan), saya telah membaca di berbagai tempat bahwa:

  1. tidak ada istilah kesalahan
  2. istilah kesalahan memiliki distribusi binomial (sesuai dengan distribusi variabel respons)
  3. istilah kesalahan memiliki distribusi logistik

Bisakah seseorang menjelaskan?

pengguna61124
sumber
6
Dengan regresi logistik - atau memang GLMS lebih umum - itu biasanya tidak berguna untuk berpikir dalam hal pengamatan sebagai "mean + error". Lebih baik berpikir dalam hal distribusi bersyarat. Saya tidak akan mengatakan 'tidak ada istilah kesalahan' karena 'tidak membantu untuk berpikir dalam istilah-istilah itu'. Jadi saya tidak akan banyak mengatakan ini adalah pilihan antara 1. atau 2. karena saya akan mengatakan itu umumnya lebih baik untuk mengatakan "tidak ada di atas". Namun, terlepas dari sejauh mana seseorang dapat berdebat untuk "1." atau "2.", meskipun, "3." pasti salah. Di mana Anda melihat itu? yi|x
Glen_b -Reinstate Monica
1
@ Glen_b: Bisakah seseorang berdebat untuk (2)? Saya sudah tahu orang-orang mengatakannya tetapi tidak pernah membelanya ketika ditanyai.
Scortchi
3
@ Glen_b Ketiga pernyataan memiliki interpretasi konstruktif di mana mereka benar. (3) ditujukan di en.wikipedia.org/wiki/Logistic_distribution#Applications dan en.wikipedia.org/wiki/Discrete_choice#Binary_Choice .
whuber
@whuber: Saya sudah memperbaiki jawaban saya wrt (3), yang tidak dipikirkan dengan baik; tetapi masih bingung tentang apa arti (2) mungkin benar.
Scortchi
2
@Scortchi Meskipun Anda benar bahwa (2) tidak benar, jika kami menafsirkannya dengan mengatakan bahwa perbedaan antara pengamatan dan harapannya memiliki distribusi Binomial yang diterjemahkan oleh harapan , maka (secara sepele) akan benar. Pernyataan tanda kurung dalam (2) sangat menyarankan ini adalah interpretasi yang dimaksud. Perhatikan bahwa "istilah kesalahan" lain yang berguna dapat didefinisikan juga, seperti dan istilah kesalahan penyimpangan yang dijelaskan dalam Hosmer & Lemeshow (dan, sesuai dengan peringatan yang sesuai yang dibahas di sana, kotak mereka memiliki perkiraan distribusi χ 2 ). χ2χ2
whuber

Jawaban:

25

Dalam pengamatan regresi linier diasumsikan mengikuti distribusi Gaussian dengan parameter rata-rata bersyarat pada nilai-nilai prediktor. Jika Anda mengurangi rata-rata dari pengamatan Anda mendapatkan kesalahan : distribusi Gaussian dengan rata-rata nol, & independen dari nilai prediktor — itu adalah kesalahan pada set nilai prediktor mana pun mengikuti distribusi yang sama.

Dalam pengamatan regresi logistik, diasumsikan mengikuti distribusi Bernoulli dengan parameter rata-rata (probabilitas) yang tergantung pada nilai prediktor. Jadi untuk nilai prediktor tertentu yang menentukan rata-rata π hanya ada dua kemungkinan kesalahan: 1 - π terjadi dengan probabilitas π , & 0 - π terjadi dengan probabilitas 1 - π . Untuk nilai-nilai prediktor lain kesalahan akan 1 - π terjadi dengan probabilitas π y{0,1}π1ππ0π1π1ππ, & terjadi dengan probabilitas 1 - π . Jadi tidak ada distribusi kesalahan umum yang independen dari nilai-nilai prediktor, itulah sebabnya orang mengatakan "tidak ada istilah kesalahan" (1).0π1π

"Istilah kesalahan memiliki distribusi binomial" (2) hanya kecerobohan— "model Gaussian memiliki kesalahan Gaussian, model ergo binomial memiliki kesalahan binomial". (Atau, seperti yang ditunjukkan @whuber, ini bisa berarti "perbedaan antara pengamatan dan harapannya memiliki distribusi binomial yang diterjemahkan oleh harapan".)

"Istilah kesalahan memiliki distribusi logistik" (3) muncul dari derivasi regresi logistik dari model di mana Anda mengamati apakah variabel laten dengan kesalahan mengikuti distribusi logistik melebihi ambang batas. Jadi itu bukan kesalahan yang sama yang didefinisikan di atas. (Tampaknya aneh untuk mengatakan IMO di luar konteks itu, atau tanpa referensi eksplisit ke variabel laten.)

† Jika Anda memiliki observasi dengan nilai prediktor yang sama, memberikan probabilitas yang sama π untuk masing-masing, maka jumlah mereka ykπy mengikuti distribusi binomial dengan probabilitas dan tidak ada. cobaan k . Mempertimbangkan y - k π karena kesalahan mengarah ke kesimpulan yang sama.πkykπ

Scortchi - Reinstate Monica
sumber
1
Bisakah Anda memberikan contoh sederhana mengenai bagian 'tidak ada istilah kesalahan'. Saya kesulitan memahaminya seperti yang tertulis.
quirik
@Scortchi Saya mengalami kesulitan mengikuti kasus ini ketika dalam praktiknya model tersebut digunakan dengan beberapa ambang, katakan 0,5. Maka kesalahannya adalah 1 atau 0. Bisakah ini kemudian dianggap sebagai variabel acak Bernoulli dengan parameter 1- ketika label sebenarnya adalah 1? π
wabbit
17

Ini sudah dibahas sebelumnya. Model yang dibatasi memiliki nilai prediksi dalam tidak mungkin memiliki istilah kesalahan aditif yang akan membuat prediksi melampaui [ 0 , 1 ] . Pikirkan contoh paling sederhana dari model logistik biner - model yang hanya mengandung intersep. Ini setara dengan masalah satu sampel Bernoulli, sering disebut (dalam kasus sederhana ini) masalah binomial karena (1) semua informasi terdapat dalam ukuran sampel dan jumlah peristiwa atau (2) distribusi Bernoulli adalah kasus khusus dari distribusi binomial dengan n = 1[0,1][0,1]n=1. Data mentah dalam situasi ini adalah serangkaian nilai-nilai biner, dan masing-masing memiliki distribusi Bernoulli dengan parameter yang tidak diketahui mewakili probabilitas acara. Tidak ada istilah kesalahan dalam distribusi Bernoulli, hanya ada probabilitas yang tidak diketahui. Model logistik adalah model probabilitas.θ

Frank Harrell
sumber
9

Bagi saya penyatuan logistik, linier, regresi poisson dll ... selalu dalam hal spesifikasi mean dan varians dalam kerangka Model Generalized Linear. Kami mulai dengan menentukan distribusi probabilitas untuk data kami, normal untuk data kontinu, Bernoulli untuk dikotomis, Poisson untuk jumlah, dll ... Lalu kami menentukan fungsi tautan yang menggambarkan bagaimana rata-rata terkait dengan prediktor linier:

g(μi)=α+xiTβ

g(μi)=μi

g(μi)=log(μi1μi)

g(μi)=log(μi)

Satu-satunya hal yang dapat dipertimbangkan seseorang dalam hal penulisan istilah kesalahan adalah dengan menyatakan:

yi=g1(α+xiTβ)+ei where E(ei)=0 and Var(ei)=σ2(μi). For example, for logistic regression, σ2(μi)=μi(1μi)=g1(α+xiTβ)(1g1(α+xiTβ)). But, you cannot explicitly state that ei has a Bernoulli distribution as mentioned above.

Note, however, that basic Generalized Linear Models only assume a structure for the mean and variance of the distribution. It can be shown that the estimating equations and the Hessian matrix only depend on the mean and variance you assume in your model. So you don't necessarily need to be concerned with the distribution of ei for this model because the higher order moments don't play a role in the estimation of the model parameters.

hard2fathom
sumber
0
  1. No errors exist. We are modeling the mean! The mean is just a true number.
  2. This doesn't make sense to me.
  3. Think the response variable as a latent variable. If you assume the error term is normally distributed, then the model becomes a probit model. If you assume the distribution of the error term is logistic, then the model is logistic regression.
Liu Jim
sumber
2
I fail to see how this helps one understand a probability model. Probability models are simpler than this makes it seem.
Frank Harrell