Saya memiliki data survei besar, variabel hasil biner dan banyak variabel penjelas termasuk biner dan kontinu. Saya membangun set model (bereksperimen dengan GLM dan GLM campuran) dan menggunakan pendekatan teori informasi untuk memilih model teratas. Saya hati-hati memeriksa penjelasan (baik kontinu dan kategoris) untuk korelasi dan saya hanya menggunakan yang dalam model yang sama yang memiliki koefisien Pearson atau Phicorr kurang dari 0,3. Saya ingin memberi semua variabel kontinu kesempatan yang adil dalam bersaing untuk model teratas. Dalam pengalaman saya, mengubah mereka yang membutuhkannya berdasarkan kemiringan meningkatkan model mereka berpartisipasi (AIC lebih rendah).
Pertanyaan pertama saya adalah: apakah peningkatan ini karena transformasi meningkatkan linearitas dengan logit? Atau mengoreksi kemiringan meningkatkan keseimbangan variabel penjelas entah bagaimana dengan membuat data lebih simetris? Saya berharap saya mengerti alasan matematika di balik ini tetapi untuk saat ini, jika seseorang dapat menjelaskan hal ini dengan mudah, itu akan bagus. Jika Anda memiliki referensi yang dapat saya gunakan, saya akan sangat menghargainya.
Banyak situs internet mengatakan bahwa karena normalitas bukan asumsi dalam regresi logistik biner, jangan mengubah variabel. Tapi saya merasa bahwa dengan tidak mengubah variabel saya, saya meninggalkan beberapa di posisi yang kurang menguntungkan dibandingkan dengan yang lain dan itu mungkin mempengaruhi apa model top dan mengubah inferensi (well, biasanya tidak, tetapi dalam beberapa set data tidak). Beberapa variabel saya berkinerja lebih baik ketika log diubah, beberapa ketika kuadrat (arah kemiringan yang berbeda) dan beberapa variabel tidak diubah.
Apakah seseorang dapat memberi saya panduan apa yang harus berhati-hati ketika mengubah variabel penjelas untuk regresi logistik dan jika tidak melakukannya, mengapa tidak?
Jawaban:
Anda harus berhati-hati dalam memutuskan tentang mentransformasikan atau tidak variabel hanya atas dasar statistik . Anda harus melihat interpretasi. ¿Apakah masuk akal bahwa respons Anda linear dalam ? atau lebih linear di ? Dan untuk membahas itu, kita perlu mengetahui varaibles Anda ... Seperti contohnya: terlepas dari kecocokan model, saya tidak akan percaya bahwa kematian adalah fungsi linear dari usia!x log(x)
Karena Anda mengatakan Anda memiliki "data besar", Anda dapat melihat ke dalam splines, untuk membiarkan data berbicara tentang transformasi ... misalnya, paket mgcv dalam R. Tetapi bahkan menggunakan teknologi tersebut (atau metode lain untuk mencari transformasi secara otomatis), ujian terakhir adalah bertanya pada diri sendiri apa yang masuk akal secara ilmiah . ¿Apa yang dilakukan orang lain di bidang Anda dengan data serupa?
sumber
Masalah kritisnya adalah angka-angka apa yang seharusnya mewakili di dunia nyata dan apa hubungan yang dihipotesiskan antara variabel-variabel tersebut dan variabel dependen. Anda dapat meningkatkan model Anda dengan 'membersihkan' data Anda, tetapi jika itu tidak lebih mencerminkan dunia nyata Anda tidak berhasil. Mungkin distribusi data Anda berarti pendekatan pemodelan Anda salah dan Anda memerlukan pendekatan yang berbeda sama sekali, mungkin data Anda memiliki masalah.
Mengapa Anda menghapus variabel jika mereka memiliki corr> .3 di luar saya. Mungkin hal-hal itu benar-benar terkait dan keduanya penting bagi variabel dependen. Anda bisa mengatasinya dengan indeks atau fungsi yang mewakili kontribusi bersama dari variabel yang berkorelasi. Tampaknya Anda membabi buta mengeluarkan informasi berdasarkan kriteria statistik yang sewenang-wenang. Mengapa tidak menggunakan corr> .31, atau .33?
sumber