menguji koefisien regresi logistik menggunakan dan derajat kebebasan deviance residual

12

Ringkasan: Apakah ada teori statistik untuk mendukung penggunaan distribusi- (dengan derajat kebebasan berdasarkan pada residual deviance) untuk pengujian koefisien regresi logistik, daripada distribusi normal standar?t


Beberapa waktu yang lalu saya menemukan bahwa ketika memasang model regresi logistik di SAS PROC GLIMMIX, di bawah pengaturan default, koefisien regresi logistik diuji menggunakan distribusi daripada distribusi normal standar. Yaitu, GLIMMIX melaporkan kolom dengan rasio (yang akan saya panggil pada sisa pertanyaan ini ), tetapi juga melaporkan kolom "derajat kebebasan", serta nilai berdasarkan asumsi distribusi untuk1 β 1 / t1 zβ^1/var(β^1)zt z 2ptzdengan derajat kebebasan berdasarkan pada penyimpangan residu - yaitu, derajat kebebasan = jumlah total pengamatan dikurangi jumlah parameter. Di bagian bawah pertanyaan ini saya memberikan beberapa kode dan output dalam R dan SAS untuk demonstrasi dan perbandingan. 2

Ini membingungkan saya, karena saya berpikir bahwa untuk model linear umum seperti regresi logistik, tidak ada teori statistik untuk mendukung penggunaan distribusi- dalam kasus ini. Alih-alih, saya pikir yang kami tahu tentang kasus ini adalah itut

  • z adalah "kira-kira" terdistribusi normal;
  • perkiraan ini mungkin buruk untuk ukuran sampel kecil;
  • namun demikian tidak dapat diasumsikan bahwa memiliki distribusi seperti yang dapat kita asumsikan dalam kasus regresi normal.tzt

Sekarang, pada tingkat intuitif, tampaknya masuk akal bagi saya bahwa jika kira-kira terdistribusi normal, mungkin sebenarnya memiliki beberapa distribusi yang pada dasarnya " like", bahkan jika itu tidak tepat . Jadi penggunaan distribusi sini sepertinya tidak gila. Tapi yang ingin saya ketahui adalah sebagai berikut:t t tzttt

  1. Apakah sebenarnya ada teori statistik yang menunjukkan bahwa benar-benar mengikuti distribusi dalam kasus regresi logistik dan / atau model linear umum lainnya?tzt
  2. Jika tidak ada teori seperti itu, apakah setidaknya ada makalah di luar sana yang menunjukkan bahwa dengan asumsi distribusi dengan cara ini bekerja dengan baik, atau bahkan mungkin lebih baik daripada, dengan asumsi distribusi normal?t

Secara lebih umum, apakah ada dukungan aktual untuk apa yang dilakukan GLIMMIX di sini selain dari intuisi yang mungkin pada dasarnya masuk akal?

Kode R:

summary(glm(y ~ x, data=dat, family=binomial))

R output:

Call:
glm(formula = y ~ x, family = binomial, data = dat)

Deviance Residuals: 
   Min      1Q  Median      3Q     Max  
-1.352  -1.243   1.025   1.068   1.156  

Coefficients:
            Estimate Std. Error z value Pr(>|z|)    
(Intercept)  0.22800    0.06725   3.390 0.000698 ***
x           -0.17966    0.10841  -1.657 0.097462 .  
---
  Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1

(Dispersion parameter for binomial family taken to be 1)

    Null deviance: 1235.6  on 899  degrees of freedom
Residual deviance: 1232.9  on 898  degrees of freedom
AIC: 1236.9

Number of Fisher Scoring iterations: 4

Kode SAS:

proc glimmix data=logitDat;
    model y(event='1') = x / dist=binomial solution;
run;

Output SAS (diedit / disingkat):

The GLIMMIX Procedure

               Fit Statistics

-2 Log Likelihood            1232.87
AIC  (smaller is better)     1236.87
AICC (smaller is better)     1236.88
BIC  (smaller is better)     1246.47
CAIC (smaller is better)     1248.47
HQIC (smaller is better)     1240.54
Pearson Chi-Square            900.08
Pearson Chi-Square / DF         1.00


                       Parameter Estimates

                         Standard
Effect       Estimate       Error       DF    t Value    Pr > |t|

Intercept      0.2280     0.06725      898       3.39      0.0007
x             -0.1797      0.1084      898      -1.66      0.0978

1 Sebenarnya saya pertama kali memperhatikan ini tentang model regresi logistik efek campuran dalam PROC GLIMMIX, dan kemudian menemukan bahwa GLIMMIX juga melakukan ini dengan regresi logistik "vanilla".

n2 Saya mengerti bahwa dalam contoh yang ditunjukkan di bawah ini, dengan 900 pengamatan, perbedaan di sini mungkin tidak membuat perbedaan praktis. Itu bukan poin saya. Ini hanya data yang saya buat dengan cepat dan memilih 900 karena ini adalah angka yang tampan. Namun saya sedikit bertanya-tanya tentang perbedaan praktis dengan ukuran sampel kecil, misalnya <30.n

Jake Westfall
sumber
PROC LOGISTICdi SAS menghasilkan tes tipe-wald yang biasa berdasarkan pada -score. Saya bertanya-tanya apa yang mendorong perubahan dalam fungsi yang lebih baru (produk sampingan dari generalisasi?). z
Affine
1
SPSS tampaknya menguji model efek campuran logistik dengan cara yang sama :(
Richard Border

Jawaban:

6

Apakah sebenarnya ada teori statistik yang menunjukkan bahwa z benar-benar mengikuti distribusi dalam kasus regresi logistik dan / atau model linear umum lainnya?

Sejauh yang saya ketahui, tidak ada teori seperti itu. Saya secara teratur melihat argumen bergelombang, dan kadang-kadang eksperimen simulasi untuk mendukung pendekatan semacam itu untuk beberapa keluarga GLM tertentu atau yang lain. Simulasi lebih meyakinkan daripada argumen handwavy.

Jika tidak ada teori seperti itu, apakah setidaknya ada makalah di luar sana yang menunjukkan bahwa asumsi pada distribusi dengan cara ini juga berfungsi, atau bahkan mungkin lebih baik daripada, dengan asumsi distribusi normal?

Bukannya saya ingat pernah melihat, tapi itu tidak banyak bicara.

Simulasi sampel kecil saya sendiri (terbatas) menyarankan asumsi distribusi-t dalam kasus logistik mungkin jauh lebih buruk daripada asumsi normal:

masukkan deskripsi gambar di sini

Di sini, misalnya, adalah hasil (sebagai plot QQ) dari 10.000 simulasi statistik Wald untuk regresi logistik biasa (yaitu efek tetap, bukan campuran) pada 15 pengamatan x yang sama di mana parameter populasi sama-sama nol. Garis merah adalah garis y = x. Seperti yang Anda lihat, dalam setiap kasus normal adalah pendekatan yang cukup baik atas kisaran yang baik di tengah - ke sekitar sekitar persentil ke-5 dan ke-95 (1,6-1,7ish), dan kemudian di luar distribusi statistik uji yang sebenarnya adalah jauh lebih ringan daripada yang normal.

Jadi untuk kasus logistik, saya akan mengatakan argumen apa pun untuk menggunakan t- daripada z- tampaknya tidak mungkin berhasil atas dasar ini, karena simulasi seperti ini cenderung menyarankan hasil mungkin cenderung terletak pada ekor yang lebih ringan sisi normal, bukan ekor yang lebih berat.

[Namun, saya sarankan Anda tidak mempercayai simulasi saya lebih jauh daripada sebagai peringatan untuk waspada - coba beberapa dari Anda sendiri, mungkin untuk keadaan yang lebih representatif dari situasi Anda sendiri yang khas dari IVs dan model Anda (tentu saja, Anda perlu mensimulasikan kasus di mana beberapa null benar untuk melihat distribusi apa yang digunakan di bawah nol). Aku akan tertarik mendengar bagaimana mereka keluar untukmu.]

Glen_b -Reinstate Monica
sumber
1
Glen terima kasih. Itu adalah hasil yang menarik tentang distribusi yang sebenarnya lebih ringan daripada yang normal daripada yang lebih berat. Jadi sepertinya bahwa bahkan intuisi dasar di balik ide adalah melenceng, setidaknya untuk beberapa kasus yang realistis. t
Jake Westfall
4

Berikut adalah beberapa simulasi tambahan hanya untuk sedikit memperluas apa yang sudah disajikan oleh Glen_b.

[1,1]N=10,20,40,80p=0.5,0.731,0.881,0.952

ztdf=N2z=0p=1QQsim

ptppHistSim

t

Jake Westfall
sumber