Apakah kemungkinan log dalam GLM telah menjamin konvergensi ke maxima global?

16

Pertanyaan saya adalah:

  1. Apakah model linier umum (GLM) dijamin untuk konvergen ke global maksimum? Jika demikian, mengapa?
  2. Lebih lanjut, kendala apa yang ada pada fungsi tautan untuk memastikan kecemburuan?

Pemahaman saya tentang GLM adalah bahwa mereka memaksimalkan fungsi kemungkinan sangat nonlinier. Jadi, saya akan membayangkan bahwa ada beberapa maxima lokal dan set parameter yang Anda konvergen bergantung pada kondisi awal untuk algoritma optimasi. Namun, setelah melakukan penelitian, saya belum menemukan satu sumber pun yang menunjukkan bahwa ada beberapa maksima lokal. Selain itu, saya tidak begitu akrab dengan teknik optimasi, tetapi saya tahu metode Newton-Raphson dan algoritma IRLS sangat rentan terhadap maxima lokal.

Tolong jelaskan jika mungkin baik secara intuitif dan matematika!

EDIT: dksahuji menjawab pertanyaan awal saya, tetapi saya ingin menambahkan pertanyaan lanjutan [ 2 ] di atas. ("Kendala apa yang ada pada fungsi tautan untuk memastikan kecembungan?")

DankMasterDan
sumber
Saya pikir beberapa pembatasan harus diperlukan sebelum bisa demikian. Apa sumber pernyataan itu?
Glen_b -Reinstate Monica
Beberapa situs tampaknya menyiratkannya namun saya tidak dapat menemukan apa pun yang menyebutkannya secara langsung, jadi saya juga menyambut penolakannya!
DankMasterDan
selama kemungkinannya didefinisikan dengan baik di mana-mana di domain (dan mengabaikan beberapa masalah numerik tangensial) saya pikir ya. Dalam kondisi seperti itu, goni itu <0 di mana-mana di domain sehingga kemungkinannya adalah cekung secara global. Btw, fungsinya bukan 'sangat non-linear' dalam parameter dan itu yang penting.
user603
@ user603 apa sumber / bukti Anda bahwa goni itu <0 di mana-mana?
DankMasterDan
Regresi logistik, Poisson, dan Gaussian sering cembung diberi fungsi tautan "baik". Namun, dengan fungsi tautan sewenang-wenang, mereka tidak cembung.
Memming

Jawaban:

11

Definisi keluarga eksponensial adalah:

p(x|θ)=h(x)exp(θTϕ(x)A(θ)),

di mana adalah fungsi partisi log. Sekarang orang dapat membuktikan bahwa tiga hal berikut berlaku untuk kasus 1D (dan mereka menggeneralisasi ke dimensi yang lebih tinggi - Anda dapat melihat properti keluarga eksponensial atau partisi log):A(θ)

  1. dAdθ=E[ϕ(x)]

  2. d2Adθ2=E[ϕ2(x)]E[ϕ(x)]2=var(ϕ(x))

  3. 2Aθiθj=E[ϕi(x)ϕj(x)]E[ϕi(x)]E[ϕj(x)]=cov(ϕ(x))Δ2A(θ)=cov(ϕ(x))

A(θ)cov(ϕ(x))

p(D|θ)=[i=1Nh(xi)] exp(θT[i=1Nϕ(xi)]NA(θ))log(p(D|θ))=θT[i=1Nϕ(xi)]NA(θ)=θT[ϕ(D)]NA(θ)

Now θT[ϕ(D)] is linear in theta and A(θ) is concave. Therefore, there is a unique global maximum.

There is a generalized version called curved exponential family which would also be similar. But most of the proofs are in canonical form.

dksahuji
sumber
so does this mean that GLM have a unique global minima nomatter which link function is chosen (including the noncanonical ones)?
DankMasterDan
1
I will try to answer as far as I percieve it. p(x|θ)=h(x)exp(η(θ)Tϕ(x)A(η(θ))) is the case you are talking about. This still is concave in η but may not be in θ so η should be such that the whole log likelihood is concave in θ.
dksahuji
Note that the question asks about convergence, rather than just existence, but with a few restrictions, that, too, may be doable.
Glen_b -Reinstate Monica
@Glen_b Can you elaborate? I dont know any such restrictions. Maybe something like restrictions on stepsize in a gradient based optimizer to gaurantee convergence in case of concave function.
dksahuji
1
@Glen_b That might be true in general but I am not able to see any reason for concave function to not converge to optima within small tolerable value. But I would say that I dont have any practical experience with these and I have just started. :)
dksahuji