Saya mengalami kesulitan untuk mendapatkan Hessian dari fungsi objektif, , dalam regresi logistik di mana adalah:
adalah fungsi logistik. Hessian adalah . Saya mencoba menurunkannya dengan menghitung , tetapi kemudian tidak jelas bagi saya bagaimana cara mendapatkan notasi matriks dari .
Adakah yang tahu cara bersih dan mudah untuk mendapatkan ?
Jawaban:
Di sini saya mendapatkan semua sifat dan identitas yang diperlukan agar solusi dapat berdiri sendiri, tetapi selain itu derivasi ini bersih dan mudah. Mari kita meresmikan notasi kita dan menulis fungsi kerugian sedikit lebih kompak. Pertimbangkanm sampel {xi,yi} sehingga xi∈Rd dan yi∈R . Ingatlah bahwa dalam regresi logistik biner kita biasanya memiliki fungsi hipotesis hθ menjadi fungsi logistik. Secara formal
dimanaω∈Rd dan zi=ωTxi . Fungsi kerugian (yang saya percaya OP kehilangan tanda negatif) kemudian didefinisikan sebagai:
Ada dua sifat penting dari fungsi logistik yang saya peroleh di sini untuk referensi di masa mendatang. Pertama, perhatikan bahwa1−σ(z)=1−1/(1+e−z)=e−z/(1+e−z)=1/(1+ez)=σ(−z) .
Perhatikan juga itu
Alih-alih mengambil turunan sehubungan dengan komponen, di sini kami akan bekerja langsung dengan vektor (Anda dapat meninjau turunan dengan vektor di sini ). Hessian dari fungsi kerugianl(ω) diberikan oleh ∇⃗ 2l(ω) , tetapi pertama-tama ingat bahwa∂z∂ω=xTω∂ω=xT dan∂z∂ωT=∂ωTx∂ωT=x .
Marili(ω)=−yilogσ(zi)−(1−yi)log(1−σ(zi)) . Menggunakan properti yang kami peroleh di atas dan aturan rantai
Sekarang sepele untuk menunjukkan itu
Wah!
Langkah terakhir kami adalah menghitung Hessian
Form samples we have ∇⃗ 2l(ω)=∑mi=1xixTiσ(zi)(1−σ(zi)) . This is equivalent to concatenating column vectors xi∈Rd into a matrix X of size d×m such that ∑mi=1xixTi=XXT . The scalar terms are combined in a diagonal matrix D such that Dii=σ(zi)(1−σ(zi)) . Finally, we conclude that
A faster approach can be derived by considering all samples at once from the beginning and instead work with matrix derivatives. As an extra note, with this formulation it's trivial to show thatl(ω) is convex. Let δ be any vector such that δ∈Rd . Then
sinceD>0 and ∥δTX∥≥0 . This implies H is positive-semidefinite and therefore l is convex (but not strongly convex).
sumber