Tentang apakah ada istilah kesalahan dalam regresi logistik (dan distribusi yang diasumsikan), saya telah membaca di berbagai tempat bahwa:
- tidak ada istilah kesalahan
- istilah kesalahan memiliki distribusi binomial (sesuai dengan distribusi variabel respons)
- istilah kesalahan memiliki distribusi logistik
Bisakah seseorang menjelaskan?
logistic
binomial
bernoulli-distribution
logistic-distribution
pengguna61124
sumber
sumber
Jawaban:
Dalam pengamatan regresi linier diasumsikan mengikuti distribusi Gaussian dengan parameter rata-rata bersyarat pada nilai-nilai prediktor. Jika Anda mengurangi rata-rata dari pengamatan Anda mendapatkan kesalahan : distribusi Gaussian dengan rata-rata nol, & independen dari nilai prediktor — itu adalah kesalahan pada set nilai prediktor mana pun mengikuti distribusi yang sama.
Dalam pengamatan regresi logistik, diasumsikan mengikuti distribusi Bernoulli † dengan parameter rata-rata (probabilitas) yang tergantung pada nilai prediktor. Jadi untuk nilai prediktor tertentu yang menentukan rata-rata π hanya ada dua kemungkinan kesalahan: 1 - π terjadi dengan probabilitas π , & 0 - π terjadi dengan probabilitas 1 - π . Untuk nilai-nilai prediktor lain kesalahan akan 1 - π ′ terjadi dengan probabilitas π ′y∈{0,1} π 1−π π 0−π 1−π 1−π′ π′ , & terjadi dengan probabilitas 1 - π ′ . Jadi tidak ada distribusi kesalahan umum yang independen dari nilai-nilai prediktor, itulah sebabnya orang mengatakan "tidak ada istilah kesalahan" (1).0−π′ 1−π′
"Istilah kesalahan memiliki distribusi binomial" (2) hanya kecerobohan— "model Gaussian memiliki kesalahan Gaussian, model ergo binomial memiliki kesalahan binomial". (Atau, seperti yang ditunjukkan @whuber, ini bisa berarti "perbedaan antara pengamatan dan harapannya memiliki distribusi binomial yang diterjemahkan oleh harapan".)
"Istilah kesalahan memiliki distribusi logistik" (3) muncul dari derivasi regresi logistik dari model di mana Anda mengamati apakah variabel laten dengan kesalahan mengikuti distribusi logistik melebihi ambang batas. Jadi itu bukan kesalahan yang sama yang didefinisikan di atas. (Tampaknya aneh untuk mengatakan IMO di luar konteks itu, atau tanpa referensi eksplisit ke variabel laten.)
† Jika Anda memiliki observasi dengan nilai prediktor yang sama, memberikan probabilitas yang sama π untuk masing-masing, maka jumlah mereka ∑ yk π ∑y mengikuti distribusi binomial dengan probabilitas dan tidak ada. cobaan k . Mempertimbangkan ∑ y - k π karena kesalahan mengarah ke kesimpulan yang sama.π k ∑y−kπ
sumber
Ini sudah dibahas sebelumnya. Model yang dibatasi memiliki nilai prediksi dalam tidak mungkin memiliki istilah kesalahan aditif yang akan membuat prediksi melampaui [ 0 , 1 ] . Pikirkan contoh paling sederhana dari model logistik biner - model yang hanya mengandung intersep. Ini setara dengan masalah satu sampel Bernoulli, sering disebut (dalam kasus sederhana ini) masalah binomial karena (1) semua informasi terdapat dalam ukuran sampel dan jumlah peristiwa atau (2) distribusi Bernoulli adalah kasus khusus dari distribusi binomial dengan n = 1[0,1] [0,1] n=1 . Data mentah dalam situasi ini adalah serangkaian nilai-nilai biner, dan masing-masing memiliki distribusi Bernoulli dengan parameter yang tidak diketahui mewakili probabilitas acara. Tidak ada istilah kesalahan dalam distribusi Bernoulli, hanya ada probabilitas yang tidak diketahui. Model logistik adalah model probabilitas.θ
sumber
Bagi saya penyatuan logistik, linier, regresi poisson dll ... selalu dalam hal spesifikasi mean dan varians dalam kerangka Model Generalized Linear. Kami mulai dengan menentukan distribusi probabilitas untuk data kami, normal untuk data kontinu, Bernoulli untuk dikotomis, Poisson untuk jumlah, dll ... Lalu kami menentukan fungsi tautan yang menggambarkan bagaimana rata-rata terkait dengan prediktor linier:
Satu-satunya hal yang dapat dipertimbangkan seseorang dalam hal penulisan istilah kesalahan adalah dengan menyatakan:
Note, however, that basic Generalized Linear Models only assume a structure for the mean and variance of the distribution. It can be shown that the estimating equations and the Hessian matrix only depend on the mean and variance you assume in your model. So you don't necessarily need to be concerned with the distribution ofei for this model because the higher order moments don't play a role in the estimation of the model parameters.
sumber
sumber