Berapa banyak distribusi dalam GLM?

11

Saya telah mengidentifikasi beberapa tempat di buku teks di mana GLM dijelaskan dengan 5 distribusi (yaitu, Gamma, Gaussian, Binomial, Inverse Gaussian, & Poisson). Ini juga dicontohkan dalam fungsi keluarga dalam R.

Kadang-kadang saya menemukan referensi ke GLM di mana distribusi tambahan disertakan ( contoh ). Dapatkah seseorang menjelaskan mengapa 5 ini istimewa atau selalu dalam GLM tetapi kadang-kadang yang lain?

Dari apa yang saya pelajari sejauh ini, distribusi GLM dalam keluarga eksponensial semuanya masuk ke dalam formulir: mana adalah parameter dispersi dan adalah parameter kanonik.ϕθ

f(y;θ,ϕ)=exp{yθb(θ)ϕ+c(y,ϕ)}
ϕθ

Tidak bisakah distribusi diubah agar sesuai dengan GLM?

timothy.s.lau
sumber
5
Jelas, distribusi seragam bukan milik keluarga eksponensial.
Zhanxiong
Pertanyaan yang bagus Misalnya bagaimana dengan lognormal?
Michael M
1
@Zhanxiong, bukankah seragam adalah kasus khusus dari distribusi beta, dan distribusi beta ada dalam keluarga eksponensial?
shf8888
@ shf8888 AFAIK itu hanya distribusi eksponensial-keluarga dalam batas, ketika konvergen ke distribusi gamma.
shadowtalker
@Zhanxiong, terima kasih telah menjelaskan! Permintaan maaf, Anda benar, dengan batasan yang tidak diketahui bukanlah distribusi keluarga eksponensial.
shf8888

Jawaban:

4

Seperti yang Anda tunjukkan, kualifikasi untuk menggunakan distribusi dalam GLM adalah bahwa ia berasal dari keluarga eksponensial (catatan: ini bukan hal yang sama dengan distribusi eksponensial! Meskipun distribusi eksponensial, sebagai distribusi gamma, itu sendiri merupakan bagian dari keluarga eksponensial). Lima distribusi yang Anda daftarkan adalah semua keluarga ini, dan yang lebih penting, adalah distribusi yang SANGAT umum, sehingga mereka digunakan sebagai contoh dan penjelasan.

Seperti yang dicatat Zhanxiong, distribusi seragam (dengan batas yang tidak diketahui) adalah contoh klasik dari distribusi keluarga non-eksponensial. shf8888 membingungkan distribusi seragam umum, pada setiap interval, dengan Seragam (0, 1). Distribusi Uniform (0,1) adalah kasus khusus dari distribusi beta, yang merupakan keluarga eksponensial. Distribusi keluarga non-eksponensial lainnya adalah model campuran dan distribusi t.

Anda memiliki definisi keluarga eksponensial yang benar, dan parameter kanonik sangat penting untuk menggunakan GLM. Namun, saya selalu merasa lebih mudah untuk memahami keluarga eksponensial dengan menuliskannya sebagai:

f(x;θ)=a(θ)g(x)exp[b(θ)R(x)]

Ada cara yang lebih umum untuk menulis ini, dengan vektor alih-alih skalar ; tetapi kasus satu dimensi menjelaskan banyak hal. Khususnya, Anda harus dapat memfaktorkan bagian non-eksponensial kerapatan Anda menjadi dua fungsi, satu dari parameter yang tidak diketahui tetapi tidak mengamati data dan satu dari dan bukan ; dan hal yang sama untuk bagian eksponensial. Mungkin sulit untuk melihat bagaimana, misalnya, distribusi binomial dapat ditulis dengan cara ini; tetapi dengan beberapa juggling aljabar, akhirnya menjadi jelas.θθθx x θθxxθ

Kami menggunakan keluarga eksponensial karena membuat banyak hal lebih mudah: misalnya, menemukan statistik yang cukup dan menguji hipotesis. Dalam GLM, parameter kanonik sering digunakan untuk menemukan fungsi tautan. Akhirnya, ilustrasi terkait mengapa ahli statistik lebih suka menggunakan keluarga eksponensial dalam hampir setiap kasus mencoba melakukan inferensi statistik klasik pada, misalnya, distribusi Uniform ( , ) di mana dan tidak diketahui. . Bukan tidak mungkin, tetapi jauh lebih rumit dan terlibat daripada melakukan hal yang sama untuk distribusi keluarga eksponensial.θ1θ 1 θ 2θ2θ1θ2

Henry
sumber
Distribusi beta dengan kedua parameter tidak dikenal masih merupakan keluarga eksponensial (tetapi keluarga eksponensial 2-parameter). Apa yang membuatmu berpikir itu bukan? www2.stat.duke.edu/courses/Spring11/sta114/lec/… or wikipedia
DavidR
Terima kasih telah menunjukkan ini, saya telah mengubah komentar saya ... Anda benar! Saya benar-benar tidak tahu apa yang saya maksud
Henry