Pertanyaan ini menindaklanjuti stats.stackexchange.com/q/233658
Model regresi logistik untuk kelas {0, 1} adalah
Jelas probabilitas tersebut berjumlah 1. Dengan mengatur kita juga bisa mendefinisikan regresi logistik sebagai
Namun, definisi kedua jarang digunakan karena koefisien dan tidak unik. Dengan kata lain, model ini tidak dapat diidentifikasi, seperti halnya regresi linier dengan dua variabel yang merupakan kelipatan satu sama lain.
Pertanyaan
Dalam pembelajaran mesin, mengapa model regresi softmax untuk kelas {0, 1, ..., K - 1} biasanya didefinisikan sebagai berikut?
Bukankah seharusnya begitu
Catatan: Dalam statistik, regresi softmax disebut regresi logistik multinomial dan kelasnya adalah {1, ..., K}. Saya menemukan ini agak canggung karena ketika K = 2, kelasnya adalah {1, 2} bukannya {0, 1} jadi itu bukan generalisasi dari regresi logistik.
Jawaban:
Ya, Anda benar bahwa ada kekurangan pengidentifikasian kecuali salah satu vektor koefisien diperbaiki. Ada beberapa alasan yang tidak menyebutkan hal ini. Saya tidak dapat berbicara mengapa mereka menghilangkan detail ini, tetapi inilah penjelasan tentang apa itu dan bagaimana cara memperbaikinya.
Deskripsi
Katakanlah Anda memiliki pengamatan dan prediktor , di mana beralih dari ke dan menunjukkan angka / indeks pengamatan. Anda akan perlu memperkirakan berdimensi koefisien vektor .yi∈{0,1,2,…,K−1} x⊺i∈Rp i 1 n K p β0,β1,…,βK−1
Fungsi softmax memang didefinisikan sebagai yang memiliki sifat-sifat bagus seperti dapat dibedakan, jumlahnya menjadi , dll.softmax(z)i=exp(zi)∑K−1l=0exp(zl), 1
Regresi logistik multinomial menggunakan fungsi Softmax untuk setiap pengamatan pada vektori ⎡⎣⎢⎢⎢⎢⎢x⊺iβ0x⊺iβ1⋮x⊺iβK−1,⎤⎦⎥⎥⎥⎥⎥
yang berarti⎡⎣⎢⎢⎢⎢⎢P(yi=0)P(yi=1)⋮P(yi=K−1)⎤⎦⎥⎥⎥⎥⎥=⎡⎣⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢exp[x⊺iβ0]∑K−1k=0exp[x⊺iβk]exp[x⊺iβ1]∑K−1k=0exp[x⊺iβk]⋮exp[x⊺iβK−1]∑K−1k=0exp[x⊺iβk]⎤⎦⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥.
Masalah
Namun, kemungkinannya tidak dapat diidentifikasi karena beberapa koleksi parameter akan memberikan kemungkinan yang sama. Misalnya, menggeser semua vektor koefisien dengan vektor yang sama akan menghasilkan kemungkinan yang sama. Ini dapat dilihat jika Anda mengalikan setiap pembilang dan penyebut dari setiap elemen vektor dengan konstanta , tidak ada yang berubah:c exp[−x⊺ic]
Memperbaikinya
Cara untuk memperbaikinya adalah dengan membatasi parameter. Memperbaiki salah satu dari mereka akan mengarah pada pengidentifikasian, karena menggeser semuanya tidak lagi diizinkan.
Ada dua pilihan umum:
Abaikan saja
Namun, terkadang pembatasan itu tidak perlu. Misalnya, jika Anda tertarik untuk membentuk interval kepercayaan untuk kuantitas , maka ini sama dengan , jadi inferensi pada jumlah yang relatif tidak terlalu penting. Juga, jika tugas Anda adalah prediksi dan bukan inferensi parameter, prediksi Anda tidak akan terpengaruh jika semua vektor koefisien diestimasi (tanpa membatasi satu).β01−β21 β01−c−[β21−c]
sumber