Katakanlah kita memiliki variabel dependen dengan beberapa kategori dan set variabel independen.
Apa keuntungan dari regresi logistik multinomial daripada serangkaian regresi logistik biner (yaitu skema one-vs-rest )? Dengan set regresi logistik biner yang saya maksud bahwa untuk setiap kategori kita membangun model regresi logistik biner terpisah dengan target = 1 ketika dan 0 sebaliknya.
logistic
categorical-data
multinomial
Tomek Tarczynski
sumber
sumber
Jawaban:
Jika memiliki lebih dari dua kategori pertanyaan Anda tentang "keuntungan" dari satu regresi terhadap yang lain mungkin tidak ada artinya jika Anda bertujuan untuk membandingkan parameter model , karena model akan berbeda secara mendasar:Y
untuk setiapilogistik binerregresi, danlogP(i)P(not i)=logiti= L i n e a r c o m b i nation saya
untuk setiapkategoriidalamregresilogistikberganda,rmenjadi kategori referensi yang dipilih (i≠r).l o g P ( i )P ( r )= L o g i tsaya=linear combination i r i≠r
Namun, jika Anda bertujuan hanya untuk memprediksi probabilitas dari masing-masing kategori pendekatan baik dibenarkan, meskipun mereka dapat memberikan perkiraan probabilitas yang berbeda. Rumus untuk memperkirakan probabilitas adalah generik:i
, di manai,j,...,rsemua kategori , dan jikarterpilih menjadi referensi salah satu nyaexp(logP′(i)=exp(logiti)exp(logiti)+exp(logitj)+⋯+exp(logitr) i,j,…,r r . Jadi, untuk logistik biner, rumus yang sama menjadi P ′ ( i ) = e x p ( l o g i t i )exp(logit)=1 . Logistik multinomial bergantung pada asumsi (tidak selalu realistis) tentangindependensi dari alternatif yang tidak relevansedangkan serangkaian prediksi logistik biner tidak.P′(i)=exp(logiti)exp(logiti)+1
Tema yang terpisah adalah apa perbedaan teknis antara multinomial dan biner regresi logistik dalam kasus ketika adalah dikotomis . Apakah akan ada perbedaan dalam hasil? Sebagian besar waktu karena tidak adanya kovariat hasilnya akan sama, masih ada perbedaan dalam algoritma dan opsi output. Izinkan saya mengutip Bantuan SPSS tentang masalah itu di SPSS:Y
sumber
Karena judulnya, saya berasumsi bahwa "keuntungan dari regresi logistik berganda" berarti "regresi multinomial". Seringkali ada keuntungan ketika model ini cocok secara bersamaan. Situasi khusus ini dijelaskan dalam Agresti (Analisis Data Kategorikal, 2002) hal 273. Singkatnya (parafrase agresti), Anda mengharapkan perkiraan dari model bersama berbeda dari model bertingkat. Model logistik yang terpisah cenderung memiliki kesalahan standar yang lebih besar walaupun mungkin tidak begitu buruk ketika tingkat hasil yang paling sering ditetapkan sebagai tingkat referensi.
sumber