Diagnostik collinearity hanya bermasalah ketika istilah interaksi dimasukkan

26

Saya telah menjalankan regresi pada negara bagian AS, dan saya memeriksa kolinearitas dalam variabel 'independen' saya. Diagnostik Regresi Belsley, Kuh, dan Welsch menyarankan untuk melihat pada Indeks Kondisi dan Proporsi Dekomposisi Varians:

library(perturb)
## colldiag(, scale=TRUE) for model with interaction
Condition
Index   Variance Decomposition Proportions
           (Intercept) inc09_10k unins09 sqmi_log pop10_perSqmi_log phys_per100k nppa_per100k black10_pct hisp10_pct elderly09_pct inc09_10k:unins09
1    1.000 0.000       0.000     0.000   0.000    0.001             0.002        0.003        0.002       0.002      0.001         0.000            
2    3.130 0.000       0.000     0.000   0.000    0.002             0.053        0.011        0.148       0.231      0.000         0.000            
3    3.305 0.000       0.000     0.000   0.000    0.000             0.095        0.072        0.351       0.003      0.000         0.000            
4    3.839 0.000       0.000     0.000   0.001    0.000             0.143        0.002        0.105       0.280      0.009         0.000            
5    5.547 0.000       0.002     0.000   0.000    0.050             0.093        0.592        0.084       0.005      0.002         0.000            
6    7.981 0.000       0.005     0.006   0.001    0.150             0.560        0.256        0.002       0.040      0.026         0.001            
7   11.170 0.000       0.009     0.003   0.000    0.046             0.000        0.018        0.003       0.250      0.272         0.035            
8   12.766 0.000       0.050     0.029   0.015    0.309             0.023        0.043        0.220       0.094      0.005         0.002            
9   18.800 0.009       0.017     0.003   0.209    0.001             0.002        0.001        0.047       0.006      0.430         0.041            
10  40.827 0.134       0.159     0.163   0.555    0.283             0.015        0.001        0.035       0.008      0.186         0.238            
11  76.709 0.855       0.759     0.796   0.219    0.157             0.013        0.002        0.004       0.080      0.069         0.683            

## colldiag(, scale=TRUE) for model without interaction
Condition
Index   Variance Decomposition Proportions
           (Intercept) inc09_10k unins09 sqmi_log pop10_perSqmi_log phys_per100k nppa_per100k black10_pct hisp10_pct elderly09_pct
1    1.000 0.000       0.001     0.001   0.000    0.001             0.003        0.004        0.003       0.003      0.001        
2    2.988 0.000       0.000     0.001   0.000    0.002             0.030        0.003        0.216       0.253      0.000        
3    3.128 0.000       0.000     0.002   0.000    0.000             0.112        0.076        0.294       0.027      0.000        
4    3.630 0.000       0.002     0.001   0.001    0.000             0.160        0.003        0.105       0.248      0.009        
5    5.234 0.000       0.008     0.002   0.000    0.053             0.087        0.594        0.086       0.004      0.001        
6    7.556 0.000       0.024     0.039   0.001    0.143             0.557        0.275        0.002       0.025      0.035        
7   11.898 0.000       0.278     0.080   0.017    0.371             0.026        0.023        0.147       0.005      0.038        
8   13.242 0.000       0.001     0.343   0.006    0.000             0.000        0.017        0.129       0.328      0.553        
9   21.558 0.010       0.540     0.332   0.355    0.037             0.000        0.003        0.003       0.020      0.083        
10  50.506 0.989       0.148     0.199   0.620    0.393             0.026        0.004        0.016       0.087      0.279        

?HH::vif menunjukkan bahwa VIF> 5 bermasalah:

library(HH)
## vif() for model with interaction
        inc09_10k           unins09          sqmi_log pop10_perSqmi_log      phys_per100k      nppa_per100k       black10_pct        hisp10_pct 
         8.378646         16.329881          1.653584          2.744314          1.885095          1.471123          1.436229          1.789454 
    elderly09_pct inc09_10k:unins09 
         1.547234         11.590162 

## vif() for model without interaction
        inc09_10k           unins09          sqmi_log pop10_perSqmi_log      phys_per100k      nppa_per100k       black10_pct        hisp10_pct 
         1.859426          2.378138          1.628817          2.716702          1.882828          1.471102          1.404482          1.772352 
    elderly09_pct 
         1.545867 

Sedangkan John Fox's Regression Diagnostics menyarankan untuk melihat akar kuadrat dari VIF:

library(car)
## sqrt(vif) for model with interaction
        inc09_10k           unins09          sqmi_log pop10_perSqmi_log      phys_per100k      nppa_per100k       black10_pct        hisp10_pct 
         2.894589          4.041025          1.285917          1.656597          1.372987          1.212898          1.198428          1.337705 
    elderly09_pct inc09_10k:unins09 
         1.243879          3.404433 
## sqrt(vif) for model without interaction
        inc09_10k           unins09          sqmi_log pop10_perSqmi_log      phys_per100k      nppa_per100k       black10_pct        hisp10_pct 
         1.363608          1.542121          1.276251          1.648242          1.372162          1.212890          1.185108          1.331297 
    elderly09_pct 
         1.243329 

Dalam dua kasus pertama (di mana cutoff yang jelas disarankan), model tersebut bermasalah hanya ketika istilah interaksi dimasukkan.

Model dengan istilah interaksi sampai saat ini menjadi spesifikasi pilihan saya.

Saya punya dua pertanyaan mengingat kekhasan data ini:

  1. Apakah istilah interaksi selalu memperburuk kolinearitas data?
  2. Karena dua variabel tanpa istilah interaksi tidak di atas ambang batas, saya boleh menggunakan model dengan istilah interaksi. Secara khusus, alasan saya pikir ini mungkin ok adalah bahwa saya menggunakan metode King, Tomz, dan Wittenberg (2000) untuk menafsirkan koefisien (model binomial negatif), di mana saya umumnya memegang koefisien lain di mean, dan kemudian menafsirkan apa yang terjadi pada prediksi variabel dependen saya ketika saya bergerak inc09_10kdan unins09berputar secara mandiri dan bersama-sama.
Ari B. Friedman
sumber

Jawaban:

31

Ya, ini biasanya terjadi dengan interaksi yang tidak terpusat. Sekilas apa yang terjadi pada korelasi dua variabel independen dan "interaksi" mereka

set.seed(12345)
a = rnorm(10000,20,2)
b = rnorm(10000,10,2)
cor(a,b)
cor(a,a*b)

> cor(a,b)
[1] 0.01564907
> cor(a,a*b)
[1] 0.4608877

Dan saat Anda memusatkannya:

c = a - 20
d = b - 10
cor(c,d)
cor(c,c*d)

> cor(c,d)
[1] 0.01564907
> cor(c,c*d)
[1] 0.001908758

Secara kebetulan, hal yang sama dapat terjadi dengan memasukkan istilah polinomial (yaitu, ) tanpa pemusatan pertama.X, X2, ...

Jadi, Anda bisa mencobanya dengan pasangan Anda.


Seperti mengapa pemusatan membantu - tetapi mari kita kembali ke definisi kovarians

Cov(X,XY)=E[(XE(X))(XYE(XY))]=E[(Xμx)(XYμxy)]=E[X2YXμxyXYμx+μxμxy]=E[X2Y]E[X]μxyE[XY]μx+μxμxy

Bahkan diberikan independensi X dan Y

=E[X2]E[Y]μxμxμyμxμyμx+μxμxμy=(σx2+μx2)μyμx2μy=σx2μy

XY


XXYYXXYY

Affine
sumber
Menarik, terima kasih. Apakah Anda memiliki penjelasan atau kutipan mengapa hal tersebut penting?
Ari B. Friedman
Saya pikir apa-apa jawaban ini tidak pantas mendapatkan keseluruhan hadiah, tetapi saya ingin memberikannya setengah-karunia. Tidak yakin itu terjadi kecuali ia memiliki suara kedua: - /.
Ari B. Friedman
1
@ AriB.Friedman, Anda tidak (tepatnya) memiliki opsi untuk memberikan setengah dari hadiah. Anda tidak dapat menghadiahkan hadiah (meskipun Anda masih akan kehilangan perwakilan dengan cara apa pun) & pos ini mungkin akan diberikan setengah dari hadiah secara otomatis (lihat bagian yang relevan dari halaman bantuan ). Namun, mengapa jawaban ini tidak pantas mendapatkan hadiah? Affine tepat di sini (+1).
gung - Reinstate Monica
@ung, saya sedang mencari pra-edit. Pasti layak untuk itu sekarang. Terima kasih @ Afine! Sedangkan untuk bagian setengah-bounty, pemahaman saya adalah >=jawaban +2 mendapat setengah-bounty jika bounty tidak diberikan secara manual.
Ari B. Friedman
@ AriB.Friedman, itu benar, tetapi sebelum saya berkomentar (& positif, & orang lain juga melakukannya), dia tidak memiliki 2+ upvotes.
gung - Reinstate Monica
0

Saya menemukan publikasi berikut tentang topik ini bermanfaat:

Robinson & Schumacker (2009): Efek interaksi: pemusatan, faktor inflasi varians, dan masalah interpretasi

"Efek penskalaan prediktor pada koefisien persamaan regresi (solusi terpusat versus tidak terpusat dan efek interaksi tingkat tinggi (interaksi 3 arah; dikategorikan berdasarkan efek kontinu) telah dibahas secara menyeluruh oleh Aiken dan Barat (1991). Contoh mereka menggambarkan multikolinieritas yang cukup besar. dimasukkan ke dalam persamaan regresi dengan istilah interaksi ketika variabel tidak terpusat. '

Afshartous & Preston (2011): Hasil utama dari model interaksi dengan pemusatan

'Motivasi untuk menggunakan pemusatan variabel meliputi peningkatan interpretasi koefisien dan penurunan ketidakstabilan numerik untuk estimasi yang terkait dengan multikolinieritas.'

Jelas Aiken dan West (1991) juga membahas topik ini, tetapi saya tidak memiliki buku mereka.

Menepuk
sumber