Bagaimana saya harus memeriksa asumsi linearitas ke logit untuk variabel independen kontinu dalam analisis regresi logistik?

13

Saya bingung dengan asumsi linearitas terhadap logit untuk variabel prediktor kontinu dalam analisis regresi logistik. Apakah kita perlu memeriksa hubungan linier sambil menyaring prediktor potensial menggunakan analisis regresi logistik univariabel?

Dalam kasus saya, saya menggunakan analisis regresi logistik ganda untuk mengidentifikasi faktor-faktor yang terkait dengan status gizi (hasil dikotomis) di antara para peserta. Variabel kontinu termasuk usia, skor komorbiditas Charlson, skor Indeks Barthel, kekuatan genggaman tangan, skor GDS, BMI, dll. Langkah pertama saya adalah menyaring variabel signifikan menggunakan regresi logistik sederhana. Apakah saya perlu memeriksa asumsi linearitas selama analisis regresi logistik sederhana untuk setiap variabel kontinu? Atau haruskah saya memeriksanya dalam model regresi logistik berganda?

Selain itu, untuk pemahaman saya, kita perlu mengubah variabel kontinu non-linier sebelum memasukkannya ke dalam model. Bisakah saya mengkategorikan variabel kontinu non-linier alih-alih transformasi?

Sze Lin Tan
sumber
1
Anda tidak boleh mengkategorikan, lebih baik untuk mencoba splines!
kjetil b halvorsen

Jawaban:

11

Seperti yang saya jelaskan secara terperinci dalam buku saya Regresi Modeling Strategies (edisi ke-2 tersedia 2015-09-04, e-book tersedia sekarang), proses berusaha mengubah variabel sebelum pemodelan dipenuhi dengan masalah, salah satu yang paling penting adalah distorsi interval kesalahan dan kepercayaan tipe I. Kategorisasi menyebabkan masalah yang lebih parah, terutama kurangnya kesesuaian dan kesewenang-wenangan.

Daripada memikirkan hal ini sebagai masalah "periksa kurangnya kecocokan", lebih baik untuk menganggapnya sebagai menentukan model yang sangat mungkin cocok. Salah satu cara untuk melakukan ini adalah mengalokasikan parameter ke bagian-bagian model yang cenderung kuat dan yang linieritasnya belum diketahui sebagai asumsi yang masuk akal. Dalam proses ini kita meneliti ukuran sampel yang efektif (dalam kasus Anda minimum jumlah peristiwa dan jumlah non-peristiwa) dan memungkinkan kompleksitas sejauh memungkinkan konten informasi data (menggunakan misalnya peristiwa 15: 1: aturan parameter jempol). Dengan menentukan sebelumnya model parametrik aditif yang fleksibel, kita hanya akan salah jika hal itu penting dengan menghilangkan interaksi penting. Interaksi harus ditentukan sebelumnya, secara umum.

Anda dapat memeriksa apakah nonlinier diperlukan dalam model dengan tes formal (dipermudah dengan rmspaket R ) tetapi menghapus persyaratan seperti itu ketika tidak signifikan menciptakan distorsi inferensial yang saya uraikan di atas.

Rincian lebih lanjut dapat ditemukan di catatan kursus yang ditautkan dari http://biostat.mc.vanderbilt.edu/rms .

Frank Harrell
sumber
Maaf karena tidak disebutkan sebelumnya, tetapi saya tidak terbiasa dengan R dan menggunakan SPSS untuk analisis. Dari solusi yang diberikan, apakah ini berarti bahwa jika saya menggunakan ukuran sampel efektif (15: 1), saya dapat memasukkan semua faktor penting (dari ulasan) tanpa memeriksa linearitasnya?
Sze Lin Tan
Dari analisis regresi logistik univariabel yang telah saya lakukan dalam kasus saya, BMI, lingkar betis, lingkar lengan atas semua memberikan kontribusi yang signifikan terhadap model regresi logistik sederhana status gizi (p <0,05). Tetapi mereka ternyata tidak memenuhi asumsi linearitas ketika saya memeriksa asumsi menggunakan pendekatan Box-Tidwell (untuk setiap model logistik sederhana). Jadi saya tidak yakin harus melanjutkan ke analisis regresi logistik berganda dengan prediktor ini atau tidak.
Sze Lin Tan
5
Model bangunan tidak valid berdasarkan analisis univariabel. Anda menggunakan varian untuk meneruskan regresi bertahap yang diketahui menyebabkan sejumlah masalah.
Frank Harrell
8

Regresi logistik TIDAK mengasumsikan hubungan linier antara variabel dependen dan independen. Itu mengasumsikan hubungan linear antara peluang log dari variabel dependen dan variabel independen (Ini terutama masalah dengan variabel independen kontinu.) Ada tes yang disebut Box-Tidwell yang dapat Anda gunakan untuk ini. Perintah stata adalah boxtid. Saya tidak tahu perintah SPSS, maaf.

Ini bisa membantu - http://www.ats.ucla.edu/stat/stata/webbooks/logistic/chapter3/statalog3.htm

pengguna114667
sumber
Tautan rusak sekarang.
Alexey Shrub
1

Saya pikir kita harus memplot variabel kontinu dan memeriksa linearitas sebelum menggunakannya dalam model regresi. Jika linearitas tampak seperti asumsi yang masuk akal, saya pikir ini mungkin masih akan bertahan dalam model regresi multivariabel akhir dalam banyak kasus, dan jika tidak, saya pikir ini terutama disebabkan oleh efek interaksi yang dapat Anda koreksi.

Ya, mengategorikan variabel kontinu non-linear adalah satu opsi. Masalah dengan ini adalah bahwa kategori mungkin dalam banyak kasus tampak sewenang-wenang, dan perbedaan kecil dalam skor cut-off antara kategori dapat menyebabkan hasil yang berbeda (terutama mengenai signifikansi statistik), dan, tergantung pada jumlah kategori dan ukuran data Anda , Anda mungkin kehilangan banyak informasi berharga dalam data.

Pendekatan alternatif adalah dengan menggunakan model aditif umum yang merupakan model regresi yang dapat ditentukan sebagai regresi logistik, tetapi di mana Anda dapat memasukkan variabel independen non-linear sebagai "fungsi lebih halus". Secara teknis, ini tidak terlalu rumit di R, tapi saya tidak tahu tentang paket perangkat lunak lain. Model-model ini akan mengidentifikasi hubungan non-linear dengan variabel dependen, tetapi kelemahannya mungkin Anda tidak akan mendapatkan angka rapi dan rapi dalam output Anda untuk disajikan, tetapi kurva visual yang diuji untuk signifikansi statistik. Jadi itu tergantung seberapa tertarik Anda dalam mengukur pengaruh variabel non-linear pada variabel hasil.

Akhirnya, Anda dapat menggunakan model aditif umum seperti yang dijelaskan di atas untuk menguji asumsi linearitas dalam model regresi logistik Anda, setidaknya jika Anda menggunakan R.

Lihatlah buku ini (bidang yang sangat berbeda dari Anda, dan milik saya, tetapi itu tidak masalah sama sekali): http://www.amazon.com/Effects-Extensions-Ecology-Statistics-Biology/dp/0387874577 / ref = sr_1_1? yaitu = UTF8 & qid = 1440928328 & sr = 8-1 & kata kunci = zuur + ekologi

JonB
sumber
Saya tidak terbiasa dengan R dan menggunakan SPSS untuk analisis. Maaf karena tidak disebutkan sebelumnya. Dapatkah saya menggunakan pendekatan Box-Tidwell (dengan membuat istilah interaksi antara variabel kontinu dan log naturalnya sendiri dan menambahkan istilah interaksi ke model) untuk memeriksa asumsi linearitas?
Sze Lin Tan
1

Karena saya tidak tahu data Anda, saya tidak tahu apakah menggabungkan ketiga variabel - variabel dasar, log natural, dan istilah interaktif - akan menjadi masalah. Namun, saya tahu bahwa di masa lalu ketika saya mempertimbangkan untuk menggabungkan tiga istilah, saya sering kehilangan jejak konseptual dari apa yang saya ukur. Anda harus memiliki pegangan yang baik pada apa yang Anda ukur atau Anda akan kesulitan menjelaskan temuan Anda. Semoga itu bisa membantu!

pengguna114667
sumber