Collinearity antara variabel kategori

11

Ada banyak hal tentang kolinearitas berkenaan dengan prediktor kontinu tetapi tidak begitu banyak yang dapat saya temukan pada prediktor kategoris. Saya memiliki data jenis ini yang diilustrasikan di bawah ini.

Faktor pertama adalah variabel genetik (jumlah alel), faktor kedua adalah kategori penyakit. Jelas bahwa gen mendahului penyakit dan merupakan faktor dalam menunjukkan gejala yang mengarah pada diagnosis. Namun, analisis reguler menggunakan tipe II atau III jumlah kuadrat, seperti yang biasa dilakukan dalam psik dengan SPSS, melewatkan efeknya. Jenis I jumlah analisis kuadrat mengambilnya, ketika urutan yang tepat dimasukkan karena tergantung pesanan. Lebih lanjut, ada kemungkinan komponen tambahan untuk proses penyakit yang tidak terkait dengan gen yang tidak diidentifikasi dengan baik dengan tipe II atau III, lihat anova (lm1) di bawah vs lm2 atau Anova.

Contoh data:

set.seed(69)
iv1 <- sample(c(0,1,2), 150, replace=T)
iv2 <- round(iv1 + rnorm(150, 0, 1), 0)
iv2 <- ifelse(iv2<0, 0, iv2)
iv2 <- ifelse(iv2>2, 2, iv2)
dv  <- iv2 + rnorm(150, 0, 2)
iv2 <- factor(iv2, labels=c("a", "b", "c"))
df1 <- data.frame(dv, iv1, iv2)

library(car)
chisq.test(table(iv1, iv2))          # quick gene & disease relations
lm1 <- lm(dv~iv1*iv2, df1);    lm2 <- lm(dv~iv2*iv1, df1)
anova(lm1);                    anova(lm2)
Anova(lm1, type="II");         Anova(lm2, type="II")
  1. LM1 dengan tipe I SS bagi saya tampaknya cara yang tepat untuk menganalisis data yang diberikan teori latar belakang. Apakah asumsi saya benar?
  2. Saya terbiasa memanipulasi desain ortogonal secara eksplisit, di mana masalah ini biasanya tidak muncul. Apakah sulit untuk meyakinkan pengulas bahwa ini adalah proses terbaik (dengan asumsi poin 1 benar) dalam konteks bidang sentris SPSS?
  3. Dan apa yang harus dilaporkan di bagian statistik? Adakah analisis tambahan, atau komentar yang harus masuk?
Matt Albrecht
sumber
Sungguh mengejutkan mendengar bahwa seseorang yang menggunakan SPSS hanya tahu Tipe III atau II SS. Dan Anda terdengar seperti itu.
ttnphns
2
Yah, saya dulu memiliki kesenjangan pengetahuan yang sama yang saya maksudkan dalam pertanyaan saya. Tampaknya lebih merupakan cerminan dari minat orang, pengetahuan dan bagaimana mereka diperkenalkan ke perangkat lunak daripada perangkat lunak itu sendiri. Tetapi opsi default memainkan peran besar juga dengan opsi tipe III standar yang digunakan dalam SPSS.
Matt Albrecht
Anda tampaknya mengatakan bahwa Anda memiliki cara untuk memasukkan 2 prediktor dalam urutan tertentu menggunakan prosedur anova SPSS (unianova?). Saya hanya tahu cara menentukan pesanan dengan beralih ke prosedur regresi. Bagaimana Anda mencapai ini?
rolando2

Jawaban:

8

Kolinearitas antar faktor cukup rumit. Contoh klasik adalah yang Anda dapatkan ketika Anda mengelompokkan dan mengkodekan tiga variabel kontinu 'usia', 'periode' dan 'tahun'. Itu dianalisis dalam:

Koefisien yang Anda dapatkan, setelah menghapus empat (bukan tiga) referensi, hanya diidentifikasi hingga tren linier yang tidak diketahui. Ini dapat dianalisis karena collinearity muncul dari collinearity yang diketahui dalam variabel sumber (usia + tahun = periode).

Beberapa pekerjaan juga telah dilakukan pada collinearity palsu antara dua faktor. Telah dianalisis dalam:

Hasilnya adalah bahwa collinearity antara variabel kategori berarti bahwa dataset harus dibagi menjadi bagian-bagian yang terputus, dengan tingkat referensi di setiap komponen. Koefisien yang diperkirakan dari berbagai komponen tidak dapat dibandingkan secara langsung.

Untuk collinearities yang lebih rumit antara tiga atau lebih faktor, situasinya rumit. Memang ada prosedur untuk menemukan fungsi yang dapat diperkirakan, yaitu kombinasi linear dari koefisien yang dapat ditafsirkan, misalnya dalam:

  • "Tentang konektivitas desain kolom-baris" oleh Godolphin dan Godolphin dalam Utilitas Mathematica (60) hal. 51-65

Tapi setahu saya tidak ada peluru perak umum untuk menangani collinearities seperti itu secara intuitif.

Simen Gaure
sumber
1

Setelah ngobrol dengan beberapa orang statistik di sekitar tempat itu. Sepertinya pertanyaan semacam ini mungkin bukan pertanyaan yang paling tepat untuk dijawab. Menggunakan ANOVA (atau metode serupa) untuk menyelidiki interaksi genetik dan diagnostik pada tindakan neuropsikologis ketika mereka sangat berkorelasi adalah pertanyaan yang sulit. Saya malah diarahkan untuk memeriksa struktur data dengan pemodelan persamaan struktural.

Jawaban ini akan diperbarui karena saya belajar lebih banyak tentang SEM.

Matt Albrecht
sumber