Mengapa GLM berbeda dari LM dengan variabel yang diubah

16

Sebagaimana dijelaskan dalam handout kursus ini (halaman 1) , model linear dapat ditulis dalam bentuk:

y=β1x1++βpxp+εi,

di mana y adalah variabel respon dan xi adalah variabel penjelas ith .

Seringkali dengan tujuan memenuhi asumsi pengujian, seseorang dapat mengubah variabel respons. Misalnya kita menerapkan fungsi log pada setiap yi . Mengubah variabel respon TIDAK sama dengan melakukan GLM.

GLM dapat ditulis dalam bentuk berikut (dari handout kursus lagi (halaman 3) )

g(u)=β1x1++βpxp+εi,

di mana u hanyalah simbol lain untuk y seperti yang saya mengerti dari halaman 2 dalam handout kursus. g() disebut fungsi tautan.

Saya tidak benar-benar memahami perbedaan antara GLM dan LM dengan variabel yang diubah dari slide dalam kursus. Bisakah Anda membantu saya dengan itu?

Remi.b
sumber
2
Anda mungkin menemukan cukup terang untuk mempertimbangkan fakta bahwa semua transformasi dari hasil biner adalah afin, yang dengan demikian akan membatasi Anda pada regresi kuadrat terkecil. Ini jelas bukan yang dicapai oleh regresi logistik (standar GLM untuk tanggapan biner). (Bukti: biarkan nilai-nilai hasil dikodekan sebagai dan y 1 dan biarkan ϕ menjadi transformasi apa pun. Menulis z 0 = ϕ ( y 0 ) dan z 1 = ϕ ( y 1 ) kami menemukan ϕ setuju pada { yy0y1ϕz0=ϕ(y0)z1=ϕ(y1)ϕ dengan y λ y + μ (yang merupakan transformasi afin dari y ) di mana λ = ( z 1 - z 0 ) / ( y 1 - y 0 ) dan μ = z 0 - λ y 0. ){y0,y1}yλy+μyλ=(z1z0)/(y1y0)μ=z0λy0
whuber

Jawaban:

15

Mengubah respons sebelum melakukan regresi linier adalah dengan melakukan ini:

E(g(Y))β0+β1x1++βpxp

di mana adalah fungsi yang diberikan, dan kami menganggap bahwa g ( Y ) memiliki distribusi yang diberikan (biasanya normal).gg(Y)

Model linier umum melakukan ini:

g(E(Y))β0+β1x1++βpxp

di mana sama dengan sebelumnya, dan kami berasumsi bahwa Y memiliki distribusi yang diberikan (biasanya tidak normal).gY

Hong Ooi
sumber
apa E dalam persamaan Anda?
user1406647
1
adalah notasi standar untuk nilai harapan X . E(X)X
Marcus PS
Saya juga menemukan ini bermanfaat: christoph-scherber.de/content/PDF%20Files/…
Aditya
22

Saya tidak yakin apakah ini akan menjadi jawaban yang lengkap untuk Anda, tetapi ini dapat membantu membebaskan kebuntuan konseptual.

Tampaknya ada dua kesalahpahaman di akun Anda:

  1. Ingatlah bahwa regresi kuadrat terkecil (OLS - 'linear') adalah kasus khusus dari model linear umum. Jadi, ketika Anda mengatakan "[t] mengubah variabel respons TIDAK TIDAK sama dengan melakukan GLM", ini tidak benar. Memasang model linier atau mengubah variabel respons dan kemudian memasang model linier keduanya merupakan 'melakukan GLM'.

  2. uμXuy", this is also incorrect. In the OLS formulation, Y is a random variable and/or yi is a realized value of Y for observation / study unit i. That is, y (more generically) represents data, not a parameter.

    (I don't mean to be harping on mistakes, I just suspect that these may be causing your confusion.)

  3. There is also another aspect of the generalized linear model that I don't see you mentioning. That is that we specify a response distribution. In the case of OLS regression, the response distribution is Gaussian (normal) and the link function is the identity function. In the case of, say, logistic regression (which may be what people first think of when they think of GLMs), the response distribution is the Bernoulli (/ binomial) and the link function is the logit. When using transformations to ensure the assumptions for OLS are met, we are often trying to make the conditional response distribution acceptably normal. However, no such transformation will make the Bernoulli distribution acceptably normal.

gung - Reinstate Monica
sumber