Apa perbedaan antara regresi logistik dan regresi respons fraksional?

13

Sejauh yang saya tahu, perbedaan antara model logistik dan model respons fraksional (frm) adalah bahwa variabel dependen (Y) di mana frm adalah [0,1], tetapi logistik adalah {0, 1}. Selanjutnya, frm menggunakan estimator kuasi-kemungkinan untuk menentukan parameternya.

Biasanya, kita dapat menggunakan glmmodel logistik untuk mendapatkan glm(y ~ x1+x2, data = dat, family = binomial(logit)).

Untuk frm, kami ganti family = binomial(logit)ke family = quasibinomial(logit).

Saya perhatikan kita juga bisa menggunakan family = binomial(logit)untuk mendapatkan parameter frm karena memberikan nilai estimasi yang sama. Lihat contoh berikut

library(foreign)
mydata <- read.dta("k401.dta")


glm.bin <- glm(prate ~ mrate + age + sole + totemp, data = mydata
,family = binomial('logit'))
summary(glm.bin)

kembali,

Call:
glm(formula = prate ~ mrate + age + sole + totemp, family = binomial("logit"), 
    data = mydata)

Deviance Residuals: 
    Min       1Q   Median       3Q      Max  
-3.1214  -0.1979   0.2059   0.4486   0.9146  

Coefficients:
              Estimate Std. Error z value Pr(>|z|)    
(Intercept)  1.074e+00  8.869e-02  12.110  < 2e-16 ***
mrate        5.734e-01  9.011e-02   6.364 1.97e-10 ***
age          3.089e-02  5.832e-03   5.297 1.17e-07 ***
sole         3.636e-01  9.491e-02   3.831 0.000128 ***
totemp      -5.780e-06  2.207e-06  -2.619 0.008814 ** 
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1

(Dispersion parameter for binomial family taken to be 1)

    Null deviance: 1166.6  on 4733  degrees of freedom
Residual deviance: 1023.7  on 4729  degrees of freedom
AIC: 1997.6

Number of Fisher Scoring iterations: 6

Dan untuk family = quasibinomial('logit'),

glm.quasi <- glm(prate ~ mrate + age + sole + totemp, data = mydata
,family = quasibinomial('logit'))
summary(glm.quasi)

kembali,

Call:
glm(formula = prate ~ mrate + age + sole + totemp, family = quasibinomial("logit"), 
    data = mydata)

Deviance Residuals: 
    Min       1Q   Median       3Q      Max  
-3.1214  -0.1979   0.2059   0.4486   0.9146  

Coefficients:
              Estimate Std. Error t value Pr(>|t|)    
(Intercept)  1.074e+00  4.788e-02  22.435  < 2e-16 ***
mrate        5.734e-01  4.864e-02  11.789  < 2e-16 ***
age          3.089e-02  3.148e-03   9.814  < 2e-16 ***
sole         3.636e-01  5.123e-02   7.097 1.46e-12 ***
totemp      -5.780e-06  1.191e-06  -4.852 1.26e-06 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1

(Dispersion parameter for quasibinomial family taken to be 0.2913876)

    Null deviance: 1166.6  on 4733  degrees of freedom
Residual deviance: 1023.7  on 4729  degrees of freedom
AIC: NA

Number of Fisher Scoring iterations: 6

Perkiraan Beta dari keduanya familysama, tetapi perbedaannya adalah nilai SE. Namun, untuk mendapatkan SE yang benar, kita harus menggunakan library(sandwich)seperti pada posting ini .

Sekarang, pertanyaan saya:

  1. Apa perbedaan antara kedua kode ini?
  2. Apakah saya akan mendapatkan SE yang kuat?

Jika pemahaman saya tidak benar, tolong berikan beberapa saran.

pemula
sumber

Jawaban:

11

Jika pertanyaan Anda adalah: apa perbedaan antara kedua kode ini?

Melihat ?glmkata See family for details of family functions, dan melihat ?familymengungkapkan deskripsi berikut:

Keluarga quasibinomial dan quasipoisson berbeda dari keluarga binomial dan poisson hanya dalam hal parameter dispersi tidak tetap pada satu, sehingga mereka dapat memodelkan dispersi berlebih.

Ini juga yang Anda lihat di output Anda. Dan itulah perbedaan antara kedua model / kode.

Jika pertanyaan Anda adalah: apa perbedaan antara regresi logistik dan regresi respons fraksional?

Saat Anda mengidentifikasi dengan benar, modelnya adalah model logistik jika variabel dependen Anda 0 atau 1. Papke dan Wooldridge telah menunjukkan bahwa Anda dapat menggunakan GLM formulir ini untuk fraksi juga untuk estimasi parameter, tetapi Anda harus hitung kesalahan standar yang kuat. Ini tidak diperlukan untuk regresi logistik, dan pada kenyataannya, beberapa orang berpikir Anda tidak boleh menghitung kesalahan standar yang kuat dalam model probit / logit. Padahal ini debat yang berbeda.

Basis teoretis berasal dari makalah terkenal oleh Gourieroux, Monfort, dan Trognondalam Econometrica pada tahun 1984. Mereka menunjukkan bahwa (dalam beberapa kondisi keteraturan dll) parameter kemungkinan maksimum diperoleh dengan memaksimalkan kemungkinan yang termasuk dalam keluarga eksponensial linier adalah perkiraan yang konsisten untuk parameter yang memiliki kemungkinan lain dalam keluarga eksponensial linier. Jadi, dalam beberapa hal, kami menggunakan distribusi logistik di sini meskipun tidak tepat yang benar, tetapi parameternya masih konsisten untuk parameter yang ingin kami peroleh. Jadi, jika pertanyaan Anda berasal dari pengamatan bahwa kami menggunakan fungsi kemungkinan yang sama untuk memperkirakan model respons logistik dan fraksional, kecuali bahwa kami bertukar sifat variabel dependen, maka ini adalah intuisi.

coffeinjunky
sumber
bagaimana kita bisa mengukur kinerja frm? Bisakah kita menggunakan MSE seperti regresi linier?
pemula
1
Itu pertanyaan yang sangat berbeda. Silakan posting sebagai yang baru.
coffeinjunky