Apa perbedaan antara "fungsi tautan" dan "fungsi tautan kanonik" untuk GLM

65

Apa perbedaan antara istilah 'fungsi tautan' dan 'fungsi tautan kanonik'? Juga, apakah ada keuntungan (teoretis) dari penggunaan satu di atas yang lain?

Misalnya, variabel respons biner dapat dimodelkan menggunakan banyak fungsi tautan seperti logit , probit , dll. Namun, logit di sini dianggap sebagai fungsi tautan "kanonik".

mantap
sumber
10
Saya membahas fungsi tautan secara luas di sini: Perbedaan antara model logit dan probit , dengan fokus pada regresi untuk variabel respons biner. Meskipun hanya sedikit dari diskusi yang berfokus pada makna fungsi tautan yang 'kanonik', namun mungkin akan bermanfaat untuk dibaca. Perhatikan bahwa untuk memahami perbedaan b / t & keuntungan dari fungsi tautan kanonik vs non-kanonik harus masuk jauh ke dalam matematika yang mendasari GLiM.
gung - Reinstate Monica

Jawaban:

68

Jawaban di atas lebih intuitif, jadi saya mencoba lebih keras.

Apa itu GLM?

Misalkan menunjukkan sekumpulan respons y dan p -dimensi kovariat vektor x = ( x 1 , ... , x p ) dengan nilai yang diharapkan E ( y ) = μ . Untuk i = 1 , ... , n pengamatan independen, distribusi setiap y i adalah keluarga eksponensial dengan kepadatan f ( y i ;Y=(y,x)ypx=(x1,,xp)E(y)=μi=1,,nyi Di sini, parameter yang menarik (parameter alami atau kanonik) adalah θ i , ϕ adalah a parameter skala (dikenal atau dilihat sebagai gangguan) dan γ dan τ adalah fungsi yang diketahui. The n vektor berdimensi nilai input tetap untuk p

f(yi;θi,ϕ)=exp{[yiθiγ(θi)]/ϕ+τ(yi,ϕ)}
θiϕγτnpvariabel penjelas dilambangkan dengan . Kami berasumsi bahwa vektor input mempengaruhi (1) hanya melalui fungsi linier, prediktor linier, η i = β 0 + β 1 x i 1 + + β p x i p di mana θ i bergantung. Seperti dapat ditunjukkan bahwa θ = ( γ ) - 1 ( μ )x1,,xp
ηi=β0+β1xi1++βpxip
θiθ=(γ)1(μ), ketergantungan ini ditetapkan dengan menghubungkan prediktor linier dan θ melalui mean. Lebih khusus, rata-rata μ dilihat sebagai fungsi yang dapat dibalik dan mulus dari prediktor linier, yaitu g ( μ ) = η atau μ = g - 1 ( η ) Sekarang untuk menjawab pertanyaan Anda:ηθμ
g(μ)=η or μ=g1(η)

g()μηθηθg=(γ)1

Xyixijyij=1,,pμ

Oleh karena itu mereka cenderung digunakan secara default. Namun perlu dicatat, bahwa tidak ada alasan apriori mengapa efek dalam model harus aditif pada skala yang diberikan oleh tautan ini atau lainnya.

Momo
sumber
5
+1, ini jawaban yang sangat bagus, @Momo. Saya memang menemukan beberapa persamaan lebih sulit untuk dibaca ketika mereka dikubur dalam paragraf, jadi saya 'memblokir' mereka dengan menggunakan tanda dolar ganda (yaitu $ $). Saya harap tidak apa-apa (jika tidak, Anda dapat mengembalikan, dengan permintaan maaf saya).
gung - Pasang kembali Monica
1
@Momo, pertanyaan asli di sini mencakup, termasuk apa yang ditanyakan Wei, jadi ada baiknya menunjukkan bahwa belum dijawab dengan jelas.
Glen_b
1
θη=θg(μ)=θθ=(γ)1(μ)θθμg(.)=(γ)1(.)
1
γ(θ)=π=exp(θ)1+exp(θ)(γ)1(.)=logit(.)η=θg(.)θ=logit(π)=ηθηhanya ada, jika kita menggunakan fungsi tautan kanonik.
Druss2k
2
μθηθ
16

gung mengutip penjelasan yang bagus: tautan kanonik memiliki sifat teoretis khusus dengan kecukupan minimal. Ini berarti bahwa Anda dapat mendefinisikan model logit bersyarat (yang oleh para ekonom disebut sebagai model efek tetap) dengan mengkondisikan jumlah hasil, tetapi Anda tidak dapat mendefinisikan model probit bersyarat, karena tidak ada statistik yang cukup untuk digunakan dengan tautan probit.

Tugas
sumber
Bisakah Anda menguraikan sedikit tentang kecukupan minimal? Dengan penjelasan di atas kita masih dapat mendefinisikan model probit, kan? Tentu saja ini bukan fungsi tautan kanonik, tetapi apa ruginya menggunakan fungsi tautan non-kanonik.
pikachuchameleon
9

Berikut adalah diagram kecil yang terinspirasi dari kelas 18.650 MIT yang menurut saya cukup berguna karena membantu memvisualisasikan hubungan antara fungsi-fungsi ini. Saya telah menggunakan notasi yang sama seperti pada pos @ momo:

masukkan deskripsi gambar di sini

  • γ(θ)
  • g(μ)

g

Diagram memungkinkan untuk dengan mudah berpindah dari satu arah ke yang lain, misalnya:

η=g(γ(θ))
θ=γ1(g1(η))

Fungsi tautan kanonik

g

γ1g1=(gγ)1=I
θ=η
Xavier Bourret Sicotte
sumber
1

Jawaban di atas sudah mencakup apa yang ingin saya katakan. Hanya untuk memperjelas beberapa poin sebagai peneliti pembelajaran mesin:

  1. fungsi tautan tidak lain adalah kebalikan dari fungsi aktivasi. Sebagai contoh, logit adalah kebalikan dari sigmoid, probit adalah kebalikan dari fungsi distribusi kumulatif Gaussian.

  2. wTxwx

Diskusi di atas tidak ada hubungannya dengan keluarga eksponensial, tetapi diskusi yang bagus dapat ditemukan dalam buku PRML Christopher Bishop Bab 4.3.6.

Guojun Zhang
sumber