Apakah menggunakan data jumlah sebagai variabel independen melanggar asumsi GLM?

Saya ingin menggunakan data jumlah sebagai kovariat sambil menyesuaikan model regresi logistik. Pertanyaanku adalah:

Apakah saya melanggar asumsi model logistik (dan, lebih umum, dari linier umum) dengan menggunakan variabel integer hitung non-negatif sebagai variabel independen?

Saya menemukan banyak referensi dalam literatur tentang panas untuk menggunakan data jumlah sebagai hasil, tetapi tidak sebagai kovariat; lihat misalnya makalah yang sangat jelas: "NE Breslow (1996) Generalized Linear Models: Memeriksa Asumsi dan Penguatan Kesimpulan, Congresso Nazionale Societa Italiana di Biometria, Cortona Juni 1995", tersedia di http://biostat.georgiahealth.edu/~dryu /course/stat9110spring12/land16_ref.pdf .

Secara longgar, tampaknya asumsi glm dapat dinyatakan sebagai berikut:

iid residual;
fungsi tautan harus mewakili hubungan antara variabel dependen dan independen dengan benar;
tidak adanya outlier

Apakah semua orang tahu apakah ada asumsi lain / masalah teknis yang mungkin menyarankan untuk menggunakan beberapa jenis model lain untuk berurusan dengan kovariat hitung?

Akhirnya, harap perhatikan bahwa data saya mengandung sampel yang relatif sedikit (<100) dan rentang variabel jumlah dapat bervariasi dalam 3-4 urutan besarnya (yaitu beberapa variabel memiliki nilai dalam kisaran 0-10, sedangkan variabel lain mungkin memiliki nilai dalam 0-10000).

Contoh kode R sederhana berikut:

\###########################################################

\#generating simulated data

var1 <- sample(0:10, 100, replace = TRUE);    
var2 <- sample(0:1000, 100, replace = TRUE);    
var3 <- sample(0:100000, 100, replace = TRUE);    
outcome <- sample(0:1, 100, replace = TRUE);
dataset <- data.frame(outcome, var1, var2, var3);

\#fitting the model

model <- glm(outcome ~ ., family=binomial, data = dataset)

\#inspecting the model

print(model)

\###########################################################

generalized-linear-model count-data Vincenzo Lagani
sumber

Selamat datang di situs ini! Satu komentar: jika Anda ingin menandatangani posting Anda, gunakan profil Anda (terutama kotak tentang saya).

biasanya, dalam model GLM, variabel prediktor ("independen") hanya dianggap sebagai konstanta yang diketahui, TIDAK ADA asumsi distribusi tentangnya! Jadi tidak ada salahnya menggunakan data hitung sebagai prediktor.

kjetil b halvorsen

kjetil Itu benar - dan jawaban yang bagus untuk pertanyaan itu. Namun, dengan rentang ekstrem IV yang dijelaskan di sini, orang akan bijaksana untuk mengevaluasi pengaruh data, memeriksa goodness of fit, dan khususnya menilai potensi hubungan nonlinear. Hal ini akan dilakukan dengan harapan bahwa hubungan sebenarnya adalah nonlinear dan re-ekspresi infus, seperti root atau log, akan linearize itu, dengan demikian secara bersamaan menghilangkan beberapa masalah pengaruh. Ini mungkin yang coba ditunjukkan oleh @ user14583 dalam jawaban mereka.

whuber

@kjetilbhalvorsen - Saya setuju pada "tidak ada asumsi distribusi," tapi saya tidak berpikir Anda bermaksud mengatakan "dikenal" atau "konstanta," karena tidak satu pun dari kata-kata itu cocok.

rolando2

Mereka adalah "konstanta" dalam arti bahwa mereka tidak acak: tidak ada distribusi. Mereka "dikenal" dalam arti bahwa mereka diasumsikan diukur tanpa kesalahan, sehingga nilai yang diukur adalah yang benar-benar bekerja dalam mekanisme pembuatan data. Model GLM mengasumsikan bahwa semua keacakan ada dalam mekanisme respons, yang seringkali meragukan!

b Kjetil Halvorsen

Jawaban:

Ada beberapa nuansa yang berperan di sini, dan mereka mungkin menciptakan beberapa kebingungan.

Anda menyatakan bahwa Anda memahami asumsi regresi logistik termasuk " iid residuals ...". Saya berpendapat bahwa ini tidak sepenuhnya benar. Kami umumnya mengatakan hal itu tentang Model Linier Umum (yaitu, regresi), tetapi dalam kasus itu berarti residu tidak saling tergantung satu sama lain, dengan distribusi yang sama (biasanya normal) memiliki rata-rata yang sama (0), dan varians ( yaitu, varian konstan: homogenitas varians / homoscedasticity). Namun perlu dicatat bahwa untuk distribusi Bernoulli dan distribusi Binomial, varians adalah fungsi dari mean. Dengan demikian, varians tidak bisa konstan, kecuali kovariat sama sekali tidak terkait dengan respon. Itu akan menjadi asumsi yang sangat membatasi untuk membuat regresi logistik tidak berharga. Saya perhatikan bahwa dalam abstrak pdf yang Anda kutip, daftar asumsi dimulai dengan "independensi statistik pengamatan", yang dapat kita sebut i-but-not-id(tanpa bermaksud terlalu lucu tentang itu).

Selanjutnya, seperti yang dicatat oleh @kjetilbhalvorsen dalam komentar di atas , nilai-nilai kovariat (yaitu, variabel independen Anda) diasumsikan diperbaiki dalam Generalized Linear Model. Artinya, tidak ada asumsi distribusi tertentu yang dibuat. Jadi, tidak masalah apakah mereka dihitung atau tidak, atau apakah mereka berkisar dari 0 hingga 10, dari 1 hingga 10.000, atau dari -3.1415927 hingga -2.718281828.

Satu hal yang perlu dipertimbangkan, seperti dicatat oleh @whuber , jika Anda memiliki sejumlah kecil data yang sangat ekstrem pada salah satu dimensi kovariat, titik-titik itu dapat memiliki pengaruh besar terhadap hasil analisis Anda. Artinya, Anda mungkin mendapatkan hasil tertentu hanya karena poin-poin itu. Salah satu cara untuk memikirkan hal ini adalah dengan melakukan semacam analisis sensitivitas dengan menyesuaikan model Anda baik dengan maupun tanpa data yang disertakan. Anda mungkin percaya bahwa lebih aman atau lebih tepat untuk menghentikan pengamatan itu, menggunakan beberapa bentuk analisis statistik yang kuat , atau mengubah kovariat-kovariat tersebut untuk meminimalkan pengaruh ekstrim dari poin-poin tersebut. Saya tidak akan menganggap pertimbangan ini sebagai "asumsi", tetapi mereka tentu saja pertimbangan penting dalam mengembangkan model yang tepat.

gung - Pasang kembali Monica
sumber

Satu hal yang saya pasti akan periksa adalah sifat distribusi variabel independen Anda. Sangat sering dengan data hitung, Anda akan melihat beberapa kemiringan kanan ke sedang. Dalam hal ini, Anda mungkin ingin mengubah data Anda, karena Anda akan kehilangan hubungan log-linear. Tapi tidak, menggunakan model logistik (atau GLM lainnya) baik-baik saja.

pengguna14583
sumber

Bagaimana condong kanan kehilangan 'hubungan log-linear'?

Glen_b -Reinstate Monica

Komentar ini sepertinya tidak benar bagi saya. Seperti @Glen_b, saya tidak melihat bagaimana ini akan kehilangan hubungan log-linear. Bagaimanapun, akan lebih baik untuk memeriksa hubungan secara langsung (melalui merencanakan, misalnya).

Peter Flom - Reinstate Monica

Transformasi nonlinear dari IV pasti akan mengubah hubungan log-linear menjadi sesuatu yang lain, @Peter. Jawaban ini pada dasarnya tampaknya benar bagi saya.

whuber

@whuber Saya setuju bahwa transformasi nonlinear dari satu variabel akan mengubah hubungan antara itu dan variabel lain. Tampaknya cukup jelas. Tapi dari hubungan seperti apa sampai seperti apa? Mengapa tidak memeriksa hubungan secara langsung alih-alih mengasumsikan bagaimana itu akan berubah? Selain itu, jawabannya tampaknya mengatakan bahwa orang tersebut ingin kehilangan hubungan linear log.

Peter Flom - Reinstate Monica

Itu poin bagus @Peter. Namun beberapa orang memang ingin mengubah hubungan; itu belum tentu gagasan yang keliru. Saya setuju bahwa pemeriksaan langsung adalah prosedur yang tepat: itu akan menyarankan cara untuk mengekspresikan kembali IV yang terlibat untuk menciptakan hubungan linier.

whuber