Mengapa Regresi Beta / Dirichlet tidak dianggap sebagai Generalized Linear Model?

26

Premisnya adalah kutipan ini dari sketsa paket R betareg1 .

Lebih jauh lagi, model ini berbagi beberapa sifat (seperti prediktor linier, fungsi tautan, parameter dispersi) dengan model linier umum (GLMs; McCullagh dan Nelder 1989), tetapi ini bukan kasus khusus dari kerangka kerja ini (bahkan untuk dispersi tetap )

Jawaban ini juga menyinggung fakta:

[...] Ini adalah jenis model regresi yang sesuai ketika variabel respon didistribusikan sebagai Beta. Anda dapat menganggapnya sebagai analog dengan model linier umum. Ini persis apa yang Anda cari [...] (penekanan pada saya)

Judul pertanyaan mengatakan semuanya: mengapa Regresi Beta / Dirichlet tidak dianggap sebagai Model Linear Umum (bukan?)


Sejauh yang saya tahu, Generalized Linear Model mendefinisikan model yang dibangun berdasarkan ekspektasi variabel dependennya bergantung pada yang independen.

f adalah fungsi tautan yang memetakan ekspektasi, adalah distribusi probabilitas, hasil dan prediktor, adalah parameter linier dan varians.Y X β σ 2gYXβσ2

f(E(YX))g(βX,sayaσ2)

GLM yang berbeda memaksakan (atau mengendurkan) hubungan antara mean dan varians, tetapi harus menjadi distribusi probabilitas dalam keluarga eksponensial, properti yang diinginkan yang akan meningkatkan kekokohan estimasi jika saya ingat dengan benar. Distribusi Beta dan Dirichlet adalah bagian dari keluarga eksponensial, jadi saya kehabisan ide.g


[1] Cribari-Neto, F., & Zeileis, A. (2009). Regresi beta dalam R.

Pembakar
sumber
2
(+1) Terkait: stats.stackexchange.com/a/189196 .
Amoeba berkata Reinstate Monica
@amoeba Terima kasih atas tautannya, belum pernah melihat pertanyaan itu sebelumnya.
Firebug
2
Saya pikir masalahnya adalah bahwa ketika Anda menulis distribusi beta dengan standar , parameter b (yaitu a = b = 1 menyiratkan seragam (0,1)), maka distribusi beta adalah dalam keluarga eksponensial, jika Anda menulisnya dalam hal μ (rata-rata) dan ϕ (dispersi), tidak. Tetapi saya tidak pernah begitu peduli apakah suatu distribusi ada dalam keluarga eksponensial. SebuahbSebuah=b=1μϕ
Cliff AB
@CliffAB Setelah membaca komentar di bawah jawaban Tim di bawah ini, tampaknya parametrization dari Beta mengarah ke non-ortogonalitas dari parameter, yang tampaknya menjadi persyaratan untuk GLM McCullagh-Nelder.
Firebug
1
Saya pikir jawaban singkat ini: stats.stackexchange.com/a/18812/28666 relevan dan menambah jawaban di sini (mengisyaratkan mengapa GLM awalnya didefinisikan dengan keluarga dispersi eksponensial).
Amuba kata Reinstate Monica

Jawaban:

20

Periksa referensi asli:

Ferrari, S., & Cribari-Neto, F. (2004). Regresi beta untuk tingkat pemodelan dan proporsi. Jurnal Statistik Terapan, 31 (7), 799-815.

seperti yang penulis perhatikan, parameter distribusi beta yang diparameterisasi kembali berkorelasi, jadi

Perhatikan bahwa parameter dan ϕ tidak ortogonal, berbeda dengan apa yang diverifikasi di kelas model regresi linier umum (McCullagh dan Nelder, 1989).βϕ

Jadi, sementara model terlihat seperti GLM dan dukun seperti GLM, itu tidak cocok dengan kerangka kerja.

Tim
sumber
7
Memberi +1 tetapi akan lebih baik memiliki jawaban yang lebih detail. Saya, secara pribadi, tidak memahami kutipan (bahkan setelah membuka makalah terkait). Mengapa parameter ini tidak ortogonal dalam regresi beta? .. Mengapa ini diperlukan untuk GLM? .. Dll
amuba mengatakan Reinstate Monica
3
@amoeba jujur, saya bukan tipe orang yang bisa memberi Anda jawaban rinci tentang itu. Saya tidak pernah begitu tertarik pada teori di balik GLM untuk memiliki pemahaman yang cukup mendalam tentang seluk-beluk seperti itu. McCullagh dan Nelder menyebutkan persyaratan ini, tetapi saya perlu memeriksa buku mereka untuk mengetahui mengapa hal itu penting. Jika seseorang akan memberikan penjelasan terperinci tentang mengapa ini masalah, saya akan mempertimbangkan mengeluarkan hadiah untuk jawaban seperti itu.
Tim
9
Persyaratan ortogonalitas dalam GLM adalah penting: Ini berarti bahwa Anda dapat memperkirakan persamaan tanpa khawatir salah menentukan sisa dari kemungkinan. Estimasi parameter konsisten jika persamaan rata-rata di atas ditentukan dengan benar. Inferensi valid jika tambahan varians ditentukan dengan benar. Namun, dalam regresi beta Anda tidak dapat memisahkan dua model persamaan dengan cara ini, bahkan jika ϕ hanya konstanta. Untuk hasil yang konsisten, semuanya harus ditentukan dengan benar. g(μ)=xβϕ
Achim Zeileis
3
@AchimZeileis Saya ingat bahwa saya melihat nama Anda di CV. Apa yang Anda katakan masuk akal. Mungkin Anda ingin mengubah komentar Anda menjadi jawaban dengan menambahkan beberapa alasan lagi? Seperti yang saya katakan, saya akan senang memberi hadiah untuk seseorang yang memberikan jawaban yang cukup rinci untuk pertanyaan itu.
Tim
2
@Tim Akan mencoba melakukannya ketika saya punya lebih banyak waktu. Itu sebabnya saya pikir komentar cepat lebih baik daripada tidak sama sekali ...
Achim Zeileis
8

Jawaban oleh @probabilityislogic ada di jalur yang benar.

Distribusi beta adalah dalam keluarga eksponensial dua parameter . Model GLM sederhana yang dijelaskan oleh Nelder dan Wedderburn (1972) tidak termasuk semua distribusi dalam keluarga eksponensial dua parameter.

Dalam hal artikel oleh N&W, GLM berlaku untuk fungsi kepadatan jenis berikut (ini kemudian dinamai keluarga dispersi eksponensial dalam Jørgensen 1987 ):

π(z;θ,ϕ)=exp[α(ϕ){zθ-g(θ)+h(z)}+β(ϕ,z)]

dengan fungsi tautan tambahan dan model linier untuk parameter alami θ = f ( μ ) = f ( X β ) .f()θ=f(μ)=f(Xβ)


Jadi kita dapat menulis ulang distribusi di atas juga:

π(z;μ,ϕ)=exhal[z(f(μ)α(ϕ))+h(z)α(ϕ)-g(f(μ))α(ϕ)+β(ϕ,z)]

Dua keluarga eksponensial parameter adalah:

f(z;θ1,θ2)=exhal[T1(z)η1(θ1,θ2)+T2(z)η2(θ1,θ2)-g(θ1,θ2)+h(z)]

yang terlihat mirip tetapi lebih umum (juga jika salah satu dari adalah konstan).θ


Perbedaannya jelas, dan juga menempatkan distribusi beta dalam bentuk sebagai GLM tidak dimungkinkan.

Namun, saya kurang memiliki pemahaman yang cukup untuk membuat jawaban yang lebih intuitif dan terinformasi dengan baik (saya merasa bahwa mungkin ada hubungan yang jauh lebih dalam dan lebih elegan untuk berbagai prinsip dasar). GLM menggeneralisasi distribusi kesalahan dengan menggunakan model dispersi eksponensial variate tunggal sebagai pengganti model kuadrat terkecil dan menggeneralisasikan hubungan linear dalam mean, dengan menggunakan fungsi tautan.

Intuisi terbaik dan paling sederhana tampaknya adalah dispersi- -term dalam eksponensial, yang dikalikan dengan segala sesuatu dan dengan demikian dispersi tidak berbeda dengan θ . Sedangkan beberapa keluarga eksponensial dua parameter, dan metode kuasi-kemungkinan, memungkinkan parameter dispersi menjadi fungsi θ juga.α(ϕ)θθ

Sextus Empiricus
sumber
Parameter kedua di dalam N&W yang ditentukan adalah dispersi. Ini merupakan perluasan dari satu parameter keluarga eksponensial alami π ( z ; θ )ϕπ(z;θ)
Sextus Empiricus
@amoeba beta adalah distribusi keluarga eksponensial bivariat, misalnya www2.stat.duke.edu/courses/Spring11/sta114/lec/expofam.pdf
Tim
2
Saya tidak yakin apakah itu tidak sepenuhnya mungkin, bahkan dengan dispersi tetap. Setidaknya tidak sesuai dengan glm seperti yang dinyatakan oleh N&W (yang saya tahu adalah bahwa banyak orang melakukan hal-hal yang jauh lebih sulit untuk menyelesaikan regresi beta). Saya akan mengedit jawaban untuk menunjukkan apa yang terjadi, dan di mana kesalahannya, jika kita mencoba untuk mengikuti jalan yang sama dari kotak kuadrat terkecil yang berulang.
Sextus Empiricus
2
Saya telah mengedit jawabannya. 1) Deskripsi awal saya tentang keluarga dan model dispersi salah. GLM mencakup semua distribusi dari satu keluarga eksponensial parameter karena tidak hanya fungsi kerapatan, tetapi juga fungsi tautan. 2) Dalam hal tampilan intuitif yang lebih baik, saya tidak bisa pergi jauh dan tidak berharap untuk segera pergi. Model GLM berhubungan dengan model klasik dalam berbagai representasi, menambahkan bobot pada formulasi matriks prosedur pemasangan, turunan dari fungsi log-likelihood termasuk istilah dengan fungsi tautan dan varians, .....
Sextus Empiricus
2
Saya mengambil kebebasan untuk mengedit jawaban Anda sedikit, semoga Anda baik-baik saja dengan suntingan. Selain itu, sepertinya jawaban ini stats.stackexchange.com/a/18812/28666 memberi petunjuk mengapa N&W menggunakan keluarga distribusi khusus ini dan bukan yang lebih luas.
Amuba kata Reinstate Monica
2

Saya tidak berpikir distribusi beta adalah bagian dari keluarga dispersi eksponensial . Untuk mendapatkan ini, Anda harus memiliki kepadatan

f(y;θ,τ)=exp(yθ-c(θ)τ+d(y,τ))

c()d()c(θ)τc(θ)θ

ylog[y]log[1-y]

fbetSebuah(y;μ,ϕ)=exp(ϕμlog[y1-y]+ϕlog[1-y]-log[B(ϕμ,ϕ(1-μ)]-log[y1-y])

y=xx+zxz

probabilityislogic
sumber
1
Jawaban ini tidak benar seperti yang tertulis. Salah satu cara untuk melihat ini adalah bahwa, menurut logika yang disajikan, distribusi Bernoulli dan binomial, misalnya, tidak akan berada dalam kelas keluarga eksponensial juga.
kardinal
2
Maaf, Anda benar bahwa contoh yang saya berikan salah. (Peringatan: aritmatika mental dan penggunaan ponsel CrossValidated dapat berbahaya!) Namun, maksud saya masih berlaku. Jawaban ini tidak benar karena memilih untuk sebuah sangat konsep sempit "didefinisikan" dari "keluarga eksponensial" --- jauh lebih sempit daripada sumber konvensional atau penggunaan praktis.
kardinal
2
Hmm. Wikipedia memang mencantumkan beta dalam daftar distribusi keluarga eksponensial.
Amuba kata Reinstate Monica
1
Benar - Saya sedang memikirkan keluarga eksponensial alami - yang merupakan kasus khusus
probabilityislogic
1
θ