Saya telah mengidentifikasi beberapa tempat di buku teks di mana GLM dijelaskan dengan 5 distribusi (yaitu, Gamma, Gaussian, Binomial, Inverse Gaussian, & Poisson). Ini juga dicontohkan dalam fungsi keluarga dalam R.
Kadang-kadang saya menemukan referensi ke GLM di mana distribusi tambahan disertakan ( contoh ). Dapatkah seseorang menjelaskan mengapa 5 ini istimewa atau selalu dalam GLM tetapi kadang-kadang yang lain?
Dari apa yang saya pelajari sejauh ini, distribusi GLM dalam keluarga eksponensial semuanya masuk ke dalam formulir: mana adalah parameter dispersi dan adalah parameter kanonik.ϕθ
Tidak bisakah distribusi diubah agar sesuai dengan GLM?
r
probability
distributions
generalized-linear-model
timothy.s.lau
sumber
sumber
Jawaban:
Seperti yang Anda tunjukkan, kualifikasi untuk menggunakan distribusi dalam GLM adalah bahwa ia berasal dari keluarga eksponensial (catatan: ini bukan hal yang sama dengan distribusi eksponensial! Meskipun distribusi eksponensial, sebagai distribusi gamma, itu sendiri merupakan bagian dari keluarga eksponensial). Lima distribusi yang Anda daftarkan adalah semua keluarga ini, dan yang lebih penting, adalah distribusi yang SANGAT umum, sehingga mereka digunakan sebagai contoh dan penjelasan.
Seperti yang dicatat Zhanxiong, distribusi seragam (dengan batas yang tidak diketahui) adalah contoh klasik dari distribusi keluarga non-eksponensial. shf8888 membingungkan distribusi seragam umum, pada setiap interval, dengan Seragam (0, 1). Distribusi Uniform (0,1) adalah kasus khusus dari distribusi beta, yang merupakan keluarga eksponensial. Distribusi keluarga non-eksponensial lainnya adalah model campuran dan distribusi t.
Anda memiliki definisi keluarga eksponensial yang benar, dan parameter kanonik sangat penting untuk menggunakan GLM. Namun, saya selalu merasa lebih mudah untuk memahami keluarga eksponensial dengan menuliskannya sebagai:
Ada cara yang lebih umum untuk menulis ini, dengan vektor alih-alih skalar ; tetapi kasus satu dimensi menjelaskan banyak hal. Khususnya, Anda harus dapat memfaktorkan bagian non-eksponensial kerapatan Anda menjadi dua fungsi, satu dari parameter yang tidak diketahui tetapi tidak mengamati data dan satu dari dan bukan ; dan hal yang sama untuk bagian eksponensial. Mungkin sulit untuk melihat bagaimana, misalnya, distribusi binomial dapat ditulis dengan cara ini; tetapi dengan beberapa juggling aljabar, akhirnya menjadi jelas.θθ θ x x θθ x x θ
Kami menggunakan keluarga eksponensial karena membuat banyak hal lebih mudah: misalnya, menemukan statistik yang cukup dan menguji hipotesis. Dalam GLM, parameter kanonik sering digunakan untuk menemukan fungsi tautan. Akhirnya, ilustrasi terkait mengapa ahli statistik lebih suka menggunakan keluarga eksponensial dalam hampir setiap kasus mencoba melakukan inferensi statistik klasik pada, misalnya, distribusi Uniform ( , ) di mana dan tidak diketahui. . Bukan tidak mungkin, tetapi jauh lebih rumit dan terlibat daripada melakukan hal yang sama untuk distribusi keluarga eksponensial.θ1 θ 1 θ 2θ2 θ1 θ2
sumber