Distribusi miring untuk Regresi Logistik

8

Saya telah mengembangkan model regresi logistik berdasarkan data retrospektif dari database trauma nasional cedera kepala di Inggris. Hasil utama adalah kematian 30 hari (dilambangkan sebagai Outcome30ukuran). Langkah-langkah lain di seluruh database dengan bukti yang dipublikasikan yang berpengaruh signifikan terhadap hasil dalam penelitian sebelumnya termasuk:

Yeardecimal - Date of procedure = 1994.0-2013.99
inctoCran - Time from head injury to craniotomy in minutes = 0-2880 (After 2880 minutes is defined as a separate diagnosis)
ISS - Injury Severity Score = 1-75
Age - Age of patient = 16.0-101.5
GCS - Glasgow Coma Scale = 3-15
Sex - Gender of patient = Male or Female
rcteyemi - Pupil reactivity (1 = neither, 2 = one, 3 = both)
neuroFirst2 - Location of admission (Neurosurgical unit or not)
Other - other traums (0 - No, 1 - Yes)
othopYN - Other operation required
LOS - Length of stay in days
LOSCC - Length of stay in critical care in days 

Ketika saya melakukan analisis univariat variabel, saya telah melakukan regresi logistik untuk setiap variabel kontinu. Saya tidak dapat memodelkan Yeardecimal, dengan hasil sebagai berikut:

> rcs.ASDH<-lrm(formula = Survive ~ Yeardecimal, data = ASDH_Paper1.1)
singular information matrix in lrm.fit (rank= 1 ).  Offending variable(s):
Yeardecimal 
Error in lrm(formula = Survive ~ Yeardecimal, data = ASDH_Paper1.1) : 
  Unable to fit model using lrm.fit

Namun, spline kubik terbatas berfungsi:

> rcs.ASDH<-lrm(formula = Survive ~ rcs(Yeardecimal), data = ASDH_Paper1.1)
> 
> rcs.ASDH

Logistic Regression Model

lrm(formula = Survive ~ rcs(Yeardecimal), data = ASDH_Paper1.1)

                      Model Likelihood     Discrimination    Rank Discrim.    
                         Ratio Test            Indexes          Indexes       
Obs          5998    LR chi2     106.61    R2       0.027    C       0.578    
 0           1281    d.f.             4    g        0.319    Dxy     0.155    
 1           4717    Pr(> chi2) <0.0001    gr       1.376    gamma   0.160    
max |deriv| 2e-08                          gp       0.057    tau-a   0.052    
                                           Brier    0.165                     

               Coef     S.E.    Wald Z Pr(>|Z|)
Intercept      -68.3035 45.8473 -1.49  0.1363  
Yeardecimal      0.0345  0.0229  1.51  0.1321  
Yeardecimal'     0.1071  0.0482  2.22  0.0262  
Yeardecimal''   -2.0008  0.6340 -3.16  0.0016  
Yeardecimal'''  11.3582  4.0002  2.84  0.0045  

Adakah yang bisa menjelaskan mengapa ini? Saya gugup menggunakan model mode rumit jika saya tidak dapat memodelkan dengan pendekatan yang lebih sederhana.

Saat ini saya menggunakan splines kubik terbatas untuk memodelkan Age, ISS, dan Yeardecimal. Adakah yang akan merekomendasikan pendekatan alternatif?

Dan Fountain
sumber
4
Diperlukan tidak, tetapi mungkin masuk akal untuk mengubah beberapa prediktor yang lebih miring sebelum membuat basis spline, untuk menghindari memiliki beberapa titik data dengan leverage yang sangat tinggi.
Scortchi
Untuk melihat apakah jawaban @ StasK benar, pertimbangkan untuk mencoba ini dengan glmfungsi vanilla , sesuai r.789695.n4.nabble.com
shadowtalker

Jawaban:

7

Tanggal sebagai prediktor mungkin gagal karena sangat collinear dengan konstanta. Jika Anda memasukkannya sebagai tahun, variabilitasnya adalah sekitar 10/2000 = 0,005 (sebenarnya kurang karena sebagian besar data Anda ada di tahun-tahun terakhir), dan ketika kuadratkan menjadi 4e-6. Saat membalikkan matriks dengan nilai eigen 1 dan 4e-6, paket yang Anda gunakan dapat memutuskan bahwa itu adalah nol dalam aritmatika presisi terbatas , dan melemparkan pesan kesalahan ini. Solusinya sederhana - pusatkan data Anda, setidaknya kira-kira, dengan mengurangi 2000 dari tahun itu.

Tugas
sumber
1
Ini menyelesaikan masalah, terima kasih atas penjelasannya.
Dan Fountain
Saya tidak melihat itu. Itu adalah rentang tanggal yang cukup bagus.
Frank Harrell
5

Spline kubik terbatas akan diharapkan bekerja dengan baik di sini. Anda sedikit terlalu khawatir tentang distribusi prediksi yang kecil.

Lama tinggal adalah di bagian yang salah dari jalur sebab akibat untuk menggunakannya sebagai prediktor kematian. Dan waspada terhadap operasi lain yang diperlukan.

Saya tidak melihat banyak nilai dalam analisis univariabel.

Frank Harrell
sumber
Terima kasih. Saya setuju tetapi secara tradisional hasil univariat diminta dalam literatur. Adakah pemikiran mengapa regresi logistik menjalankan kesalahan untuk Yeardecimal ketika istilah linear?
Dan Fountain
5
Frank Harrell ADALAH lektur .
Tugas
2
Permintaan maaf, saya merujuk pada studi tentang hasil dalam hematoma sub-dural.
Dan Fountain