Apakah korelasi antar variabel dalam suatu interaksi itu penting?

8

Misalkan Anda cocok dengan seorang model y=x1+x2+x1×x2. Adakah implikasi praktis untuk estimasi efek interaksi jikax1 dan x2 berkorelasi?

Saya mengerti mungkin ada masalah collinearity jika x1 dan x2 sangat berkorelasi tetapi itu seharusnya tidak mempengaruhi istilah interaksi kan?

hlinee
sumber
1
Anda tampaknya memancing informasi tentang korelasi antara x1x2 dan x1 kapan x1 dan x2berkorelasi. Salah satu cara untuk memahami apa yang dapat disimpulkan adalah dengan memperhatikan bahwa meskipun menambahkan konstanta (katakanlahc) ke salah satu xi tidak akan mengubah korelasinya, itu akan berubah x1x2 menjadi plus konstan (x1x2+cx1+cx2). Dua istilah terakhir menunjukkan hal itu c memiliki efek mendalam pada korelasi antara x1x2 dan xi.Jika ini tidak langsung menyarankan jawaban untuk apa pun pertanyaan Anda, pertimbangkan menggambar beberapa scatterplot.
Whuber
@whuber Saya mengalami kesulitan mengikuti logika Anda - adakah penjelasan langkah demi langkah yang lebih eksplisit yang dapat Anda tautkan? Saya mencoba menuliskannya dengan rumus korelasi, tetapi tidak dapat mereproduksi jawaban Anda
hlinee
@whuber Juga, mengenai pertanyaan awal saya, saya pikir beberapa konteks mungkin membantu karena saya setuju itu cukup kabur. Apa yang terjadi adalah saya mempresentasikan hasil saya mencari efek interaksi kepada seorang ahli statistik yang bekerja dengan saya dan hal pertama yang dia tanyakan adalah apakah dua prediktor dalam interaksi saya berkorelasi. Saya belum memeriksa korelasinya dan saya bertanya mengapa itu penting. Dia tidak bisa menjelaskan mengapa tetapi mengatakan itu penting, maka pertanyaan saya.
hlinee

Jawaban:

9

Ada alasan mengapa konsultan statistik Anda tidak dapat menjelaskan mengapa memasukkan interaksi ke dalam model linier dapat mempengaruhi struktur korelasi: itu tergantung pada keadaan dan umumnya tidak benar bahwa ada efek buruk. Lihat saja dataset yang ditunjukkan dalam matriks scatterplot di bawah ini untuk melihat semua cara yang berbeda dari dua variabel yang mungkin terkait dengan produk mereka.

Sisa dari posting ini menjelaskan bagaimana angka-angka itu diproduksi dan mungkin memberikan lebih banyak wawasan tentang situasi.


Pertama, mari kita perjelas: menulis x3=x1x2, Anda memiliki regresi berganda yang melibatkan tiga variabel x1,x2,x3. Ada atau tidaknya masalah collinearity tergantung pada hubungan linear antara xi. Itu universal.

Yang istimewa dari masalah ini adalah hubungan keduanyax3 Dan lainnya xi; yaitu itu x3=x1x2. Jadi, jika ada yang menyarankan Anda untuk berhati-hati, itu pasti karena harapan bahwa hubungan multiplikasi ini secara matematis memerlukan semacam multikolinieritas di antara semuaxi.

Ini tidak benar, seperti yang dapat ditunjukkan dengan menunjukkan semua pola yang mungkin. Saya tidak ingin melelahkan Anda dengan kesedihan melalui semua kemungkinan, jadi izinkan saya membuat sketsa beberapa yang paling ilustratif. Alat dasar yang akan saya pakai dalam penelitian ini adalah observasi yang berkorelasi antar variabelx1,x2 tetap tidak berubah ketika xisecara terpisah mengalami transformasi linier. Artinya, kita dapat dengan bebas mengalikan variabel dengan konstanta dan menambahkan konstanta lain ke hasil tanpa mengubah korelasinya. Namun, operasi ini dapat sangat mengubah korelasi di antara keduanyax1x2 dan xi.

(Hampir) produk konstan

Itu mungkin untuk x1x2menjadi konstan (yang, ketika regresi menyertakan konstanta, akan bermasalah). Untuk membuat contoh, cukup buat nilai bukan nol untukx1 dan mendefinisikan x2=c/x1. Produk mereka sama c oleh konstruksi.

Anda dapat mengganggu contoh ini dengan mengubah c0 menjadi variabel acak dengan nilai yang mendekati c. Melakukan ini akan memperkenalkan sedikit korelasi antara xidan produk mereka, tetapi tidak banyak. Di sini, misalnya, adalah contoh di manax1 diambil dari Gamma(5) distribusi dan c memiliki distribusi normal dengan mean 1 dan standar deviasi keadilan 1/100:

Gambar 0

walaupun xi memiliki korelasi ρ12=0.87 dalam contoh ini, korelasinya dengan x1x2 hanya 0.06 dan 0.00.

Oleh karena itu, meskipun mungkin ada sedikit masalah dalam menggunakan keduanya x1 dan x2 dalam model linier, termasuk x1x2 tidak mungkin memperburuk itu.

Produk tidak konstan

Untuk membuat perhitungan lebih jelas, kami mungkin juga menganggap ximemiliki varian unit. Biarkan varians darix1x2 menjadi τ2 dan tulis ρ12i untuk korelasi antara x1x2 dan xi. Mari kita hitung apa yang terjadi pada korelasi ini ketika konstanta ci dikurangkan dari xi. Karena xi memainkan peran simetris sempurna (hanya swap "1"untuk"2"Dalam indeks), cukup untuk menghitung korelasinya dengan x1:

(*)Cor((x1c1)(x2c2),x1)=Cov((x1c1)(x2c2),x1)Var(x1c1)(x2c2)Varx1=Cov(x1x2c2x1c1x2+c1c2,x1)Var(x1x2c1x2c2x1+c1c2)=τρ121c2c1ρ12τ2c1ρ12c22c1ρ1222c2ρ121+2c1c2ρ12.

Tidak ada korelasi dengan produk

Terlepas dari apa korelasi antara keduanya ximungkin, kita bisa memilih(c1,c2) untuk membuat produk tidak berkorelasi dengan xi.

Dari analisis sebelumnya, ini akan tercapai ketika pembilang () adalah nol untuk i=1,2:

{0=τρ121c2c1ρ120=τρ122c1c2ρ12

Kapan ρ1221, sistem persamaan ini di (c1,c2)memiliki solusi unik. Di sini, misalnya, adalah sebar sebaran dataset100 nilai di mana (xi) memiliki distribusi normal bivariat dengan korelasi ρ12=0.99 tetapi xi memiliki korelasi nol dengan x1x2:

Gambar 1

Karena x1x2 tidak berkorelasi dengan ("ortogonal ke") keduanya xi, memasukkannya ke dalam model linear apa pun tidak akan menimbulkan masalah sama sekali.

Seperti contoh ini menyarankan, situasi ini adalah norma karena cenderung terjadi ketika xitelah terpusat. Dengan kata lain, jika Anda memusatkan variabel Anda sebelum membuat interaksi Anda biasanya tidak akan mengalami masalah dengan collinearity tambahan.

Korelasi yang kuat dengan produk

Persamaan ()juga dapat diselesaikan untuk menghasilkan korelasi yang kuat. Kita bahkan tidak perlu melangkah lebih jauh untuk menyelesaikan persamaan dengan tepat (yang menantang), karena ada jalan pintas sederhana: dengan menskalakan kembali salah satuximenjadi hampir nol dan menambahkan konstanta untuk itu, kami tidak akan mengubah korelasinya, tetapi kemudian produk akan hampir sama dengan kelipatan dari yang lain darixi, dengan demikian membuat mereka sangat berkorelasi.

Ini adalah contoh berdasarkan yang sebelumnya. Dalam contoh ini,x2 diubah menjadi 1+x2/100 maka x1x2 kira-kira sama dengan x1, membuatnya sangat berkorelasi positif x1x2. Memang, ρ121=0.999878 dan ρ122=0.9898793 dalam contoh ini.

Gambar 2

whuber
sumber
Sempurna! Terima kasih atas penjelasannya :)
lengkapnya