Saya ingin menggunakan data jumlah sebagai kovariat sambil menyesuaikan model regresi logistik. Pertanyaanku adalah:
- Apakah saya melanggar asumsi model logistik (dan, lebih umum, dari linier umum) dengan menggunakan variabel integer hitung non-negatif sebagai variabel independen?
Saya menemukan banyak referensi dalam literatur tentang panas untuk menggunakan data jumlah sebagai hasil, tetapi tidak sebagai kovariat; lihat misalnya makalah yang sangat jelas: "NE Breslow (1996) Generalized Linear Models: Memeriksa Asumsi dan Penguatan Kesimpulan, Congresso Nazionale Societa Italiana di Biometria, Cortona Juni 1995", tersedia di http://biostat.georgiahealth.edu/~dryu /course/stat9110spring12/land16_ref.pdf .
Secara longgar, tampaknya asumsi glm dapat dinyatakan sebagai berikut:
- iid residual;
- fungsi tautan harus mewakili hubungan antara variabel dependen dan independen dengan benar;
- tidak adanya outlier
Apakah semua orang tahu apakah ada asumsi lain / masalah teknis yang mungkin menyarankan untuk menggunakan beberapa jenis model lain untuk berurusan dengan kovariat hitung?
Akhirnya, harap perhatikan bahwa data saya mengandung sampel yang relatif sedikit (<100) dan rentang variabel jumlah dapat bervariasi dalam 3-4 urutan besarnya (yaitu beberapa variabel memiliki nilai dalam kisaran 0-10, sedangkan variabel lain mungkin memiliki nilai dalam 0-10000).
Contoh kode R sederhana berikut:
\###########################################################
\#generating simulated data
var1 <- sample(0:10, 100, replace = TRUE);
var2 <- sample(0:1000, 100, replace = TRUE);
var3 <- sample(0:100000, 100, replace = TRUE);
outcome <- sample(0:1, 100, replace = TRUE);
dataset <- data.frame(outcome, var1, var2, var3);
\#fitting the model
model <- glm(outcome ~ ., family=binomial, data = dataset)
\#inspecting the model
print(model)
\###########################################################
sumber
Jawaban:
Ada beberapa nuansa yang berperan di sini, dan mereka mungkin menciptakan beberapa kebingungan.
Anda menyatakan bahwa Anda memahami asumsi regresi logistik termasuk " iid residuals ...". Saya berpendapat bahwa ini tidak sepenuhnya benar. Kami umumnya mengatakan hal itu tentang Model Linier Umum (yaitu, regresi), tetapi dalam kasus itu berarti residu tidak saling tergantung satu sama lain, dengan distribusi yang sama (biasanya normal) memiliki rata-rata yang sama (0), dan varians ( yaitu, varian konstan: homogenitas varians / homoscedasticity). Namun perlu dicatat bahwa untuk distribusi Bernoulli dan distribusi Binomial, varians adalah fungsi dari mean. Dengan demikian, varians tidak bisa konstan, kecuali kovariat sama sekali tidak terkait dengan respon. Itu akan menjadi asumsi yang sangat membatasi untuk membuat regresi logistik tidak berharga. Saya perhatikan bahwa dalam abstrak pdf yang Anda kutip, daftar asumsi dimulai dengan "independensi statistik pengamatan", yang dapat kita sebut
i-but-not-id
(tanpa bermaksud terlalu lucu tentang itu).Selanjutnya, seperti yang dicatat oleh @kjetilbhalvorsen dalam komentar di atas , nilai-nilai kovariat (yaitu, variabel independen Anda) diasumsikan diperbaiki dalam Generalized Linear Model. Artinya, tidak ada asumsi distribusi tertentu yang dibuat. Jadi, tidak masalah apakah mereka dihitung atau tidak, atau apakah mereka berkisar dari 0 hingga 10, dari 1 hingga 10.000, atau dari -3.1415927 hingga -2.718281828.
Satu hal yang perlu dipertimbangkan, seperti dicatat oleh @whuber , jika Anda memiliki sejumlah kecil data yang sangat ekstrem pada salah satu dimensi kovariat, titik-titik itu dapat memiliki pengaruh besar terhadap hasil analisis Anda. Artinya, Anda mungkin mendapatkan hasil tertentu hanya karena poin-poin itu. Salah satu cara untuk memikirkan hal ini adalah dengan melakukan semacam analisis sensitivitas dengan menyesuaikan model Anda baik dengan maupun tanpa data yang disertakan. Anda mungkin percaya bahwa lebih aman atau lebih tepat untuk menghentikan pengamatan itu, menggunakan beberapa bentuk analisis statistik yang kuat , atau mengubah kovariat-kovariat tersebut untuk meminimalkan pengaruh ekstrim dari poin-poin tersebut. Saya tidak akan menganggap pertimbangan ini sebagai "asumsi", tetapi mereka tentu saja pertimbangan penting dalam mengembangkan model yang tepat.
sumber
Satu hal yang saya pasti akan periksa adalah sifat distribusi variabel independen Anda. Sangat sering dengan data hitung, Anda akan melihat beberapa kemiringan kanan ke sedang. Dalam hal ini, Anda mungkin ingin mengubah data Anda, karena Anda akan kehilangan hubungan log-linear. Tapi tidak, menggunakan model logistik (atau GLM lainnya) baik-baik saja.
sumber