Pertama izinkan saya memberi latar belakang; Saya akan meringkas pertanyaan saya di bagian akhir.
Distribusi Beta, diparameterisasi dengan rata-rata dan , memiliki , di mana adalah fungsi varians.
Dalam regresi beta (misalnya, menggunakan paket betareg dalam R), regresi mengasumsikan kesalahan yang didistribusikan beta dan memperkirakan efek tetap dan nilai .
Dalam regresi glm, dimungkinkan untuk mendefinisikan distribusi "kuasi" dengan fungsi varians dari . Jadi di sini model mengasumsikan kesalahan dengan fungsi varians yang sama dengan Beta. Regresi kemudian memperkirakan efek tetap dan "dispersi" dari distribusi kuasi.
Saya mungkin kehilangan sesuatu yang penting, tetapi tampaknya kedua metode ini pada dasarnya identik, mungkin hanya berbeda dalam metode estimasi mereka.
Saya mencoba kedua metode dalam R, mundur pada DV yang disebut "Persamaan", yang ada di interval :
Call:
betareg(formula = Similarity ~ N + NK + Step_ent, data = TapData, link = "logit")
Coefficients (mean model with logit link):
Estimate Std. Error z value Pr(>|z|)
(Intercept) 0.715175 0.067805 10.547 <2e-16 ***
N -0.063806 0.003858 -16.537 <2e-16 ***
NK -0.362716 0.015008 -24.168 <2e-16 ***
Step_ent -0.696895 0.070233 -9.923 <2e-16 ***
Phi coefficients (precision model with identity link):
Estimate Std. Error z value Pr(>|z|)
(phi) 10.6201 0.2084 50.96 <2e-16 ***
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Type of estimator: ML (maximum likelihood)
Log-likelihood: 3817 on 5 Df
Pseudo R-squared: 0.2633
Number of iterations: 18 (BFGS) + 1 (Fisher scoring)
Call:
glm(formula = Similarity ~ N + NK + Step_ent, family = quasi(link = "logit",
variance = "mu(1-mu)"), data = TapData)
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 0.777451 0.069809 11.137 <2e-16 ***
N -0.069348 0.003983 -17.411 <2e-16 ***
NK -0.364702 0.016232 -22.468 <2e-16 ***
Step_ent -0.704680 0.072491 -9.721 <2e-16 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
(Dispersion parameter for quasi family taken to be 0.0838547)
Null deviance: 566.25 on 4974 degrees of freedom
Residual deviance: 422.76 on 4971 degrees of freedom
AIC: NA
Number of Fisher Scoring iterations: 4
Koefisien dari kedua model adalah serupa, seperti juga kesalahan standar mereka. The parameter juga mirip: Saya berasumsi bahwa parameter dispersi (seperti yang dilaporkan oleh GLM) dan memiliki hubungan berikut , dalam hal ini mereka 10,6201 dan 10,9254, masing-masing .
Namun, tidak satu pun dari nilai-nilai ini identik.
Apakah ini karena satu-satunya hal yang sebenarnya berbeda dalam kedua metode adalah prosedur estimasi mereka? Atau ada beberapa perbedaan mendasar yang saya lewatkan? Juga, adakah alasan untuk memilih satu metode daripada yang lain?
Jawaban:
Anda benar bahwa fungsi mean dan varians memiliki bentuk yang sama.
Ini menunjukkan bahwa dalam sampel yang sangat besar, selama Anda tidak memiliki pengamatan yang benar-benar mendekati 1 atau 0, mereka cenderung cenderung memberikan jawaban yang sangat mirip karena dalam situasi itu pengamatan akan memiliki bobot relatif yang serupa.
Tetapi dalam sampel yang lebih kecil di mana beberapa proporsi kontinu mendekati batas, perbedaannya dapat tumbuh lebih besar karena bobot relatif yang diberikan oleh kedua pendekatan akan berbeda; jika titik-titik yang mendapatkan bobot berbeda juga relatif berpengaruh (lebih ekstrim dalam ruang-x), perbedaan dalam beberapa kasus mungkin menjadi substansial.
Dalam beta-regresi Anda akan memperkirakan melalui ML, dan dalam kasus model kuasibinomial - setidaknya satu diperkirakan dalam R, perhatikan komentar ini dalam bantuan:
Saya pikir di betareg Anda bisa mendapatkanhi i nilai, dan Anda juga bisa untuk GLM, jadi pada dua model yang cocok Anda dapat membandingkan perkiraan pengaruh relatif masing-masing pengamatan (/ "berat") pada nilai terpasangnya sendiri (karena komponen lain dari rasio pengaruh harus dibatalkan, atau hampir demikian). Ini harus memberi kesan cepat pengamatan mana yang paling banyak dipandang berbeda oleh kedua pendekatan tersebut. [Seseorang mungkin melakukannya lebih tepatnya dengan benar-benar mengutak-atik pengamatan satu per satu dan melihat perubahan kecocokan per unit perubahan nilai]
Perhatikan bahwa sketsa betareg memberikan beberapa diskusi tentang koneksi antara model-model ini pada akhir bagian 2.
sumber