Mengapa GLM berbeda dari LM dengan variabel yang diubah

16

Sebagaimana dijelaskan dalam handout kursus ini (halaman 1) , model linear dapat ditulis dalam bentuk:

y = β_{1} x_{1} + \dots + β_{p} x_{p} + ε_{i},

$y = \beta_1 x_{1} + \cdots + \beta_p x_{p} + \varepsilon_i,$

di mana $y$ adalah variabel respon dan $x_{i}$ adalah variabel penjelas $i^{th}$ .

Seringkali dengan tujuan memenuhi asumsi pengujian, seseorang dapat mengubah variabel respons. Misalnya kita menerapkan fungsi log pada setiap $y_i$ . Mengubah variabel respon TIDAK sama dengan melakukan GLM.

GLM dapat ditulis dalam bentuk berikut (dari handout kursus lagi (halaman 3) )

g (u) = β_{1} x_{1} + \dots + β_{p} x_{p} + ε_{i},

$g(u) = \beta_1 x_{1} + \cdots + \beta_p x_{p} + \varepsilon_i,$

di mana $u$ hanyalah simbol lain untuk $y$ seperti yang saya mengerti dari halaman 2 dalam handout kursus. $g()$ disebut fungsi tautan.

Saya tidak benar-benar memahami perbedaan antara GLM dan LM dengan variabel yang diubah dari slide dalam kursus. Bisakah Anda membantu saya dengan itu?

regression generalized-linear-model data-transformation linear-model Remi.b
sumber

2

Anda mungkin menemukan cukup terang untuk mempertimbangkan fakta bahwa semua transformasi dari hasil biner adalah afin, yang dengan demikian akan membatasi Anda pada regresi kuadrat terkecil. Ini jelas bukan yang dicapai oleh regresi logistik (standar GLM untuk tanggapan biner). (Bukti: biarkan nilai-nilai hasil dikodekan sebagai

dan

dan biarkan

menjadi transformasi apa pun. Menulis

dan

kami menemukan

setuju pada

y_{0}

$y_0$

y_{1}

$y_1$

ϕ

$\phi$

z_{0} = ϕ (y_{0})

$z_0=\phi(y_0)$

z_{1} = ϕ (y_{1})

$z_1=\phi(y_1)$

ϕ

$\phi$

dengan

(yang merupakan transformasi afin dari

) di mana

dan

)

{y_{0}, y_{1}}

$\{y_0,y_1\}$

y \to λ y + μ

$y\to \lambda y + \mu$

y

$y$

λ = (z_{1} - z_{0}) / (y_{1} - y_{0})

$\lambda=(z_1-z_0)/(y_1-y_0)$

μ = z_{0} - λ y_{0}

$\mu=z_0-\lambda y_0$

whuber

15

Mengubah respons sebelum melakukan regresi linier adalah dengan melakukan ini:

E (g (Y)) \sim β_{0} + β_{1} x_{1} + \dots + β_{p} x_{p}

$E(g(Y)) \sim \beta_0 + \beta_1x_1 + \ldots + \beta_px_p$

di mana adalah fungsi yang diberikan, dan kami menganggap bahwa memiliki distribusi yang diberikan (biasanya normal). $g$ $g(Y)$

Model linier umum melakukan ini:

g (E (Y)) \sim β_{0} + β_{1} x_{1} + \dots + β_{p} x_{p}

$g(E(Y)) \sim \beta_0 + \beta_1x_1 + \ldots + \beta_px_p$

di mana sama dengan sebelumnya, dan kami berasumsi bahwa memiliki distribusi yang diberikan (biasanya tidak normal). $g$ $Y$

Hong Ooi
sumber

apa E dalam persamaan Anda?

user1406647

1

adalah notasi standar untuk nilai harapan

.

E (X)

$E(X)$

X

$X$

Marcus PS

Saya juga menemukan ini bermanfaat: christoph-scherber.de/content/PDF%20Files/…

Aditya

22

Saya tidak yakin apakah ini akan menjadi jawaban yang lengkap untuk Anda, tetapi ini dapat membantu membebaskan kebuntuan konseptual.

Tampaknya ada dua kesalahpahaman di akun Anda:

Ingatlah bahwa regresi kuadrat terkecil (OLS - 'linear') adalah kasus khusus dari model linear umum. Jadi, ketika Anda mengatakan "[t] mengubah variabel respons TIDAK TIDAK sama dengan melakukan GLM", ini tidak benar. Memasang model linier atau mengubah variabel respons dan kemudian memasang model linier keduanya merupakan 'melakukan GLM'.
$u$ $\mu$ $X$ $u$ $y$ ", this is also incorrect. In the OLS formulation, $Y$ is a random variable and/or $y_i$ is a realized value of $Y$ for observation / study unit $i$ . That is, $y$ (more generically) represents data, not a parameter.

(I don't mean to be harping on mistakes, I just suspect that these may be causing your confusion.)
There is also another aspect of the generalized linear model that I don't see you mentioning. That is that we specify a response distribution. In the case of OLS regression, the response distribution is Gaussian (normal) and the link function is the identity function. In the case of, say, logistic regression (which may be what people first think of when they think of GLMs), the response distribution is the Bernoulli (/ binomial) and the link function is the logit. When using transformations to ensure the assumptions for OLS are met, we are often trying to make the conditional response distribution acceptably normal. However, no such transformation will make the Bernoulli distribution acceptably normal.

gung - Reinstate Monica
sumber

Mengapa GLM berbeda dari LM dengan variabel yang diubah

Jawaban: