Ubah variabel kontinu untuk regresi logistik

11

Saya memiliki data survei besar, variabel hasil biner dan banyak variabel penjelas termasuk biner dan kontinu. Saya membangun set model (bereksperimen dengan GLM dan GLM campuran) dan menggunakan pendekatan teori informasi untuk memilih model teratas. Saya hati-hati memeriksa penjelasan (baik kontinu dan kategoris) untuk korelasi dan saya hanya menggunakan yang dalam model yang sama yang memiliki koefisien Pearson atau Phicorr kurang dari 0,3. Saya ingin memberi semua variabel kontinu kesempatan yang adil dalam bersaing untuk model teratas. Dalam pengalaman saya, mengubah mereka yang membutuhkannya berdasarkan kemiringan meningkatkan model mereka berpartisipasi (AIC lebih rendah).

Pertanyaan pertama saya adalah: apakah peningkatan ini karena transformasi meningkatkan linearitas dengan logit? Atau mengoreksi kemiringan meningkatkan keseimbangan variabel penjelas entah bagaimana dengan membuat data lebih simetris? Saya berharap saya mengerti alasan matematika di balik ini tetapi untuk saat ini, jika seseorang dapat menjelaskan hal ini dengan mudah, itu akan bagus. Jika Anda memiliki referensi yang dapat saya gunakan, saya akan sangat menghargainya.

Banyak situs internet mengatakan bahwa karena normalitas bukan asumsi dalam regresi logistik biner, jangan mengubah variabel. Tapi saya merasa bahwa dengan tidak mengubah variabel saya, saya meninggalkan beberapa di posisi yang kurang menguntungkan dibandingkan dengan yang lain dan itu mungkin mempengaruhi apa model top dan mengubah inferensi (well, biasanya tidak, tetapi dalam beberapa set data tidak). Beberapa variabel saya berkinerja lebih baik ketika log diubah, beberapa ketika kuadrat (arah kemiringan yang berbeda) dan beberapa variabel tidak diubah.

Apakah seseorang dapat memberi saya panduan apa yang harus berhati-hati ketika mengubah variabel penjelas untuk regresi logistik dan jika tidak melakukannya, mengapa tidak?

Zsuzsa
sumber
2
Memang, dalam regresi logistik tidak ada asumsi normalitas (atau distribusi logistik dalam kasus ini). Fungsi tautan (kadang-kadang dilambangkan ) digunakan untuk memodelkan hubungan antara probabilitas mengamati ( ) dengan kovariat melalui . Kecocokan / kinerja yang buruk mungkin disebabkan oleh pilihan fungsi tautan. Alternatif untuk menyortir masalah ini terdiri dari menggunakan distribusi yang lebih fleksibel, lihat sebagai contoh makalah ini . FF110P(Y=1|β,X)=F(Xβ)
Meskipun ditulis dalam konteks yang berbeda, sebagian besar dari apa yang Anda minta ada di jawaban saya (atau di tautan dalam jawaban saya) di sini: Apakah terdistribusi secara normal X dan Y lebih mungkin menghasilkan residu terdistribusi secara normal?
gung - Reinstate Monica

Jawaban:

3

Anda harus berhati-hati dalam memutuskan tentang mentransformasikan atau tidak variabel hanya atas dasar statistik . Anda harus melihat interpretasi. ¿Apakah masuk akal bahwa respons Anda linear dalam ? atau lebih linear di ? Dan untuk membahas itu, kita perlu mengetahui varaibles Anda ... Seperti contohnya: terlepas dari kecocokan model, saya tidak akan percaya bahwa kematian adalah fungsi linear dari usia!xlog(x)

Karena Anda mengatakan Anda memiliki "data besar", Anda dapat melihat ke dalam splines, untuk membiarkan data berbicara tentang transformasi ... misalnya, paket mgcv dalam R. Tetapi bahkan menggunakan teknologi tersebut (atau metode lain untuk mencari transformasi secara otomatis), ujian terakhir adalah bertanya pada diri sendiri apa yang masuk akal secara ilmiah . ¿Apa yang dilakukan orang lain di bidang Anda dengan data serupa?

kjetil b halvorsen
sumber
Terima kasih telah mendukung kekhawatiran saya: sungguh, saya memiliki tentang apa yang masuk akal secara biologis. Masalahnya adalah, bahwa saya benar-benar memiliki dua dataset terkait dan saya ingin menarik kesimpulan dari keduanya pada saat yang bersamaan. Tetapi dalam satu subset, variabel kerapatan terbaik pada model yang tidak ditransformasi sedangkan pada transformasi log lainnya adalah yang terbaik. Transformasi log meningkatkan hubungan dalam dataset yang memiliki nilai lebih rendah untuk variabel itu, jadi akan sangat sulit untuk merekonsiliasi dua set data ini, saya pikir, kecuali saya membiarkan variabel tidak diubah di keduanya.
Zsuzsa
1
Para ahli dalam suatu bidang jarang mampu mengetahui apriori transformasi "benar" untuk variabel. Saya hampir tidak pernah melihat hubungan linier sehingga ketika ukuran sampel menjamin saya mengendurkan asumsi ini menggunakan regresi splines. Saya membuat hasilnya bisa ditafsirkan dengan gambar.
Frank Harrell
3

Masalah kritisnya adalah angka-angka apa yang seharusnya mewakili di dunia nyata dan apa hubungan yang dihipotesiskan antara variabel-variabel tersebut dan variabel dependen. Anda dapat meningkatkan model Anda dengan 'membersihkan' data Anda, tetapi jika itu tidak lebih mencerminkan dunia nyata Anda tidak berhasil. Mungkin distribusi data Anda berarti pendekatan pemodelan Anda salah dan Anda memerlukan pendekatan yang berbeda sama sekali, mungkin data Anda memiliki masalah.

Mengapa Anda menghapus variabel jika mereka memiliki corr> .3 di luar saya. Mungkin hal-hal itu benar-benar terkait dan keduanya penting bagi variabel dependen. Anda bisa mengatasinya dengan indeks atau fungsi yang mewakili kontribusi bersama dari variabel yang berkorelasi. Tampaknya Anda membabi buta mengeluarkan informasi berdasarkan kriteria statistik yang sewenang-wenang. Mengapa tidak menggunakan corr> .31, atau .33?

John
sumber