Ada banyak hal tentang kolinearitas berkenaan dengan prediktor kontinu tetapi tidak begitu banyak yang dapat saya temukan pada prediktor kategoris. Saya memiliki data jenis ini yang diilustrasikan di bawah ini.
Faktor pertama adalah variabel genetik (jumlah alel), faktor kedua adalah kategori penyakit. Jelas bahwa gen mendahului penyakit dan merupakan faktor dalam menunjukkan gejala yang mengarah pada diagnosis. Namun, analisis reguler menggunakan tipe II atau III jumlah kuadrat, seperti yang biasa dilakukan dalam psik dengan SPSS, melewatkan efeknya. Jenis I jumlah analisis kuadrat mengambilnya, ketika urutan yang tepat dimasukkan karena tergantung pesanan. Lebih lanjut, ada kemungkinan komponen tambahan untuk proses penyakit yang tidak terkait dengan gen yang tidak diidentifikasi dengan baik dengan tipe II atau III, lihat anova (lm1) di bawah vs lm2 atau Anova.
Contoh data:
set.seed(69)
iv1 <- sample(c(0,1,2), 150, replace=T)
iv2 <- round(iv1 + rnorm(150, 0, 1), 0)
iv2 <- ifelse(iv2<0, 0, iv2)
iv2 <- ifelse(iv2>2, 2, iv2)
dv <- iv2 + rnorm(150, 0, 2)
iv2 <- factor(iv2, labels=c("a", "b", "c"))
df1 <- data.frame(dv, iv1, iv2)
library(car)
chisq.test(table(iv1, iv2)) # quick gene & disease relations
lm1 <- lm(dv~iv1*iv2, df1); lm2 <- lm(dv~iv2*iv1, df1)
anova(lm1); anova(lm2)
Anova(lm1, type="II"); Anova(lm2, type="II")
- LM1 dengan tipe I SS bagi saya tampaknya cara yang tepat untuk menganalisis data yang diberikan teori latar belakang. Apakah asumsi saya benar?
- Saya terbiasa memanipulasi desain ortogonal secara eksplisit, di mana masalah ini biasanya tidak muncul. Apakah sulit untuk meyakinkan pengulas bahwa ini adalah proses terbaik (dengan asumsi poin 1 benar) dalam konteks bidang sentris SPSS?
- Dan apa yang harus dilaporkan di bagian statistik? Adakah analisis tambahan, atau komentar yang harus masuk?
sumber
Jawaban:
Kolinearitas antar faktor cukup rumit. Contoh klasik adalah yang Anda dapatkan ketika Anda mengelompokkan dan mengkodekan tiga variabel kontinu 'usia', 'periode' dan 'tahun'. Itu dianalisis dalam:
Koefisien yang Anda dapatkan, setelah menghapus empat (bukan tiga) referensi, hanya diidentifikasi hingga tren linier yang tidak diketahui. Ini dapat dianalisis karena collinearity muncul dari collinearity yang diketahui dalam variabel sumber (usia + tahun = periode).
Beberapa pekerjaan juga telah dilakukan pada collinearity palsu antara dua faktor. Telah dianalisis dalam:
Hasilnya adalah bahwa collinearity antara variabel kategori berarti bahwa dataset harus dibagi menjadi bagian-bagian yang terputus, dengan tingkat referensi di setiap komponen. Koefisien yang diperkirakan dari berbagai komponen tidak dapat dibandingkan secara langsung.
Untuk collinearities yang lebih rumit antara tiga atau lebih faktor, situasinya rumit. Memang ada prosedur untuk menemukan fungsi yang dapat diperkirakan, yaitu kombinasi linear dari koefisien yang dapat ditafsirkan, misalnya dalam:
Tapi setahu saya tidak ada peluru perak umum untuk menangani collinearities seperti itu secara intuitif.
sumber
Setelah ngobrol dengan beberapa orang statistik di sekitar tempat itu. Sepertinya pertanyaan semacam ini mungkin bukan pertanyaan yang paling tepat untuk dijawab. Menggunakan ANOVA (atau metode serupa) untuk menyelidiki interaksi genetik dan diagnostik pada tindakan neuropsikologis ketika mereka sangat berkorelasi adalah pertanyaan yang sulit. Saya malah diarahkan untuk memeriksa struktur data dengan pemodelan persamaan struktural.
Jawaban ini akan diperbarui karena saya belajar lebih banyak tentang SEM.
sumber