Regresi logistik multinomial vs regresi logistik biner satu-vs-istirahat

Katakanlah kita memiliki variabel dependen $Y$ dengan beberapa kategori dan set variabel independen.

Apa keuntungan dari regresi logistik multinomial daripada serangkaian regresi logistik biner (yaitu skema one-vs-rest )? Dengan set regresi logistik biner yang saya maksud bahwa untuk setiap kategori $y_{i} \in Y$ kita membangun model regresi logistik biner terpisah dengan target = 1 ketika $Y=y_{i}$ dan 0 sebaliknya.

logistic categorical-data multinomial Tomek Tarczynski
sumber

Secara matematis, model logit multinomial adalah serangkaian model logit biner, semua dibandingkan dengan alternatif dasar. Tetapi karena Anda dapat menciutkan parameter umum dan mungkin menggabungkan beberapa yang lain, MNL akan selalu setidaknya seefisien (dan mungkin lebih dari itu). Saya tidak melihat alasan untuk menggunakan serangkaian model binomial.

gregmacfarlane

@ gmacfarlane: Saya sudah mencoba mensimulasikan data di mana MNL akan lebih baik daripada serangkaian regresi logistik biner, tetapi setiap kali rata-rata kualitasnya sama. Saya membandingkan grafik lift dan setelah rata-rata hasil dari beberapa simulasi mereka terlihat hampir sama. Mungkin Anda punya ide bagaimana menghasilkan data sehingga MNL mengalahkan regresi logistik biner? Meskipun MNL memiliki keuntungan besar, nilainya dapat diartikan sebagai probabilitas.

Tomek Tarczynski

Multinomial Logistic regression adalah perpanjangan dari regresi biner logit. Ini digunakan ketika variabel dependen penelitian adalah tiga dan di atas, sedangkan, biner logit digunakan ketika variabel dependen penelitian adalah dua.

Untuk pembaca: Saya sarankan mulai dari jawaban @ julieth dan menindaklanjuti dengan membaca ttnphns '. Saya pikir yang pertama lebih langsung menjawab pertanyaan asli tetapi yang terakhir menambahkan beberapa konteks yang menarik. ttnphns juga menunjukkan fitur-fitur berbeda yang tersedia untuk keduanya dalam rutinitas perangkat lunak populer, yang dengan sendirinya dapat menjadi alasan untuk menggunakan salah satu dari yang lain (lihat pernyataan gregmacfarlane).

Ben Ogorek

Jawaban:

Jika memiliki lebih dari dua kategori pertanyaan Anda tentang "keuntungan" dari satu regresi terhadap yang lain mungkin tidak ada artinya jika Anda bertujuan untuk membandingkan parameter model , karena model akan berbeda secara mendasar: $Y$

untuk setiaplogistik binerregresi, dan $\bf log \frac{P(i)}{P(not~i)}=logit_i=linear~combination$ $i$

untuk setiapkategoridalamregresilogistikberganda,menjadi kategori referensi yang dipilih (). $\bf log \frac{P(i)}{P(r)}=logit_i=linear~combination$ $i$ $r$ $i \ne r$

Namun, jika Anda bertujuan hanya untuk memprediksi probabilitas dari masing-masing kategori pendekatan baik dibenarkan, meskipun mereka dapat memberikan perkiraan probabilitas yang berbeda. Rumus untuk memperkirakan probabilitas adalah generik: $i$

, di manasemua kategori , dan jikaterpilih menjadi referensi salah satu nya $\bf P'(i)= \frac{exp(logit_i)}{exp(logit_i)+exp(logit_j)+\dots+exp(logit_r)}$ $i,j,\dots,r$ $r$ . Jadi, untuk logistik biner, rumus yang sama menjadi $\bf exp(logit)=1$ . Logistik multinomial bergantung pada asumsi (tidak selalu realistis) tentangindependensi dari alternatif yang tidak relevansedangkan serangkaian prediksi logistik biner tidak. $\bf P'(i)= \frac{exp(logit_i)}{exp(logit_i)+1}$

Tema yang terpisah adalah apa perbedaan teknis antara multinomial dan biner regresi logistik dalam kasus ketika adalah dikotomis . Apakah akan ada perbedaan dalam hasil? Sebagian besar waktu karena tidak adanya kovariat hasilnya akan sama, masih ada perbedaan dalam algoritma dan opsi output. Izinkan saya mengutip Bantuan SPSS tentang masalah itu di SPSS: $Y$

Model regresi logistik biner dapat dipasang menggunakan prosedur Regresi Logistik atau prosedur Regresi Logistik Multinomial. Setiap prosedur memiliki opsi yang tidak tersedia di yang lain. Perbedaan teoretis yang penting adalah bahwa prosedur Regresi Logistik menghasilkan semua prediksi, residu, statistik pengaruh, dan uji good-of-fit menggunakan data pada tingkat kasus individu, terlepas dari bagaimana data dimasukkan dan apakah jumlah pola kovariat atau tidak. lebih kecil dari jumlah total kasus, sementara prosedur Regresi Logistik Multinomial secara internal mengagregasi kasus untuk membentuk subpopulasi dengan pola kovariat identik untuk prediktor, menghasilkan prediksi, residu, dan uji good-of-fit berdasarkan sub-populasi ini.

Regresi Logistik menyediakan fitur unik berikut:

• Uji Hosmer-Lemeshow untuk model goodness of fit

• Analisis bertahap

• Kontras untuk menentukan parameterisasi model

• Titik potong alternatif untuk klasifikasi

• Plot klasifikasi

• Model dipasang pada satu set kasing untuk satu set kasing yang disediakan

• Menyimpan prediksi, residu, dan statistik pengaruh

Multinomial Logistic Regression menyediakan fitur unik berikut:

• Pearson dan deviance chi-square test untuk kebaikan model

• Spesifikasi subpopulasi untuk pengelompokan data untuk uji good-of-fit

• Daftar jumlah, jumlah yang diperkirakan, dan residu berdasarkan subpopulasi

• Koreksi estimasi varians untuk dispersi berlebih

• Matriks kovarian dari estimasi parameter

• Tes kombinasi linear dari parameter

• Spesifikasi eksplisit model bersarang

• Cocok dengan 1-1 model regresi logistik bersyarat cocok menggunakan variabel yang berbeda

ttnphns
sumber

Saya tahu bahwa model-model ini akan berbeda, tetapi saya tidak tahu mana yang lebih baik dalam situasi apa. Saya akan mengajukan pertanyaan dengan cara lain. Jika Anda diberi tugas: Untuk setiap orang, perkirakan probabilitas bahwa beberapa perusahaan telepon seluler adalah perusahaan favorit (mari kita asumsikan setiap orang memiliki perusahaan telepon seluler favorit). Manakah dari metode itu yang akan Anda gunakan dan apa kelebihannya dari yang kedua?

Tomek Tarczynski

@ Tomek Saya sedikit memperluas jawaban saya

ttnphns

Meskipun saya pikir @ julieth adalah jawaban terbaik untuk pertanyaan awal OP, saya berutang kepada Anda untuk pengantar asumsi Kemerdekaan Alternatif yang Tidak Relevan. Satu pertanyaan yang masih saya miliki adalah apakah logistik terpisah benar-benar menyiasatinya; artikel Wikipedia yang Anda tautkan ke probit dan "nested logit" yang disebutkan memungkinkan terjadinya pelanggaran IIA

Ben Ogorek

i

$i$

r

$r$

i

$i$

i \neq r

$i \neq r$

Karena judulnya, saya berasumsi bahwa "keuntungan dari regresi logistik berganda" berarti "regresi multinomial". Seringkali ada keuntungan ketika model ini cocok secara bersamaan. Situasi khusus ini dijelaskan dalam Agresti (Analisis Data Kategorikal, 2002) hal 273. Singkatnya (parafrase agresti), Anda mengharapkan perkiraan dari model bersama berbeda dari model bertingkat. Model logistik yang terpisah cenderung memiliki kesalahan standar yang lebih besar walaupun mungkin tidak begitu buruk ketika tingkat hasil yang paling sering ditetapkan sebagai tingkat referensi.

Juliuli
sumber

Terima kasih! Saya akan mencoba menemukan buku ini, sayangnya google.books menyediakan konten hanya sampai halaman 268.

Tomek Tarczynski

@TomekTarczynski Saya merangkum informasi yang relevan dari paragraf, jadi Anda mungkin tidak mendapatkan info lebih lanjut terkait pertanyaan ini dari melihat buku (meskipun buku ini bagus sehingga Anda akan mendapatkan info bagus lainnya).

Juli

Kutipan dari buku Agresti: "Perkiraan fitting terpisah berbeda dari estimasi ML untuk pemasangan simultan log J-1. Mereka kurang efisien, cenderung memiliki kesalahan standar yang lebih besar. Namun, Begg dan Gray 1984 menunjukkan bahwa kehilangan efisiensi msgstr "% B: kecil ketika kategori respons yang memiliki prevalensi tertinggi adalah garis dasar."

Franck Dernoncourt