Mengapa memusatkan variabel independen mengubah efek utama dengan moderasi?

28

Saya punya pertanyaan terkait dengan regresi berganda dan interaksi, yang diilhami oleh utas CV ini: Istilah interaksi menggunakan variabel terpusat analisis regresi hirarkis? Variabel apa yang harus kita pusatkan?

Ketika memeriksa efek moderasi saya memusatkan variabel independen saya dan mengalikan variabel terpusat untuk menghitung istilah interaksi saya. Kemudian saya menjalankan analisis regresi dan memeriksa efek utama dan interaksi, yang mungkin menunjukkan moderasi.

Jika saya mengulang analisis tanpa pemusatan, tampaknya koefisien determinasi ( ) tidak berubah tetapi koefisien regresi ( s) tidak. Itu tampak jelas dan logis. βR2β

Apa yang saya tidak mengerti: Nilai-p dari efek utama berubah secara substansial dengan pemusatan, meskipun interaksi tidak (yang benar). Jadi interpretasi saya tentang efek utama dapat berubah secara dramatis - hanya ditentukan oleh keterpusatan atau tidak. (Ini masih merupakan data yang sama, dalam kedua analisis!)

Adakah yang bisa menjelaskan? - Karena itu berarti bahwa opsi untuk memusatkan variabel saya wajib dan semua orang harus melakukannya untuk mendapatkan hasil yang sama dengan data yang sama.


Terima kasih banyak untuk mendistribusikan masalah itu dan penjelasan komprehensif Anda. Yakinlah bahwa bantuan Anda sangat dihargai!

Bagi saya, keuntungan terbesar dari pemusatan adalah untuk menghindari multikolinieritas. Masih cukup membingungkan untuk menetapkan aturan, apakah akan terpusat atau tidak. Kesan saya adalah, bahwa sebagian besar sumber daya menyarankan ke pusat, meskipun ada beberapa "risiko" saat melakukannya. Sekali lagi saya ingin mengemukakan fakta, bahwa 2 peneliti yang berurusan dengan materi dan data yang sama dapat menyimpulkan hasil yang berbeda, karena yang satu berpusat dan yang lainnya tidak. Saya baru saja membaca beberapa bagian dari sebuah buku karya Bortz (dia adalah seorang Profesor dan semacam Bintang Statistik di Jerman dan Eropa), dan dia bahkan tidak menyebutkan teknik itu; hanya menunjukkan untuk berhati-hati dalam menafsirkan efek utama variabel ketika mereka terlibat dalam interaksi.

Lagi pula, ketika Anda melakukan regresi dengan satu IV, satu moderator (atau IV kedua) dan DV, akankah Anda rekomendasikan untuk memusatkan atau tidak?

Marc Schubert
sumber
5
Saya hampir tidak pernah menggunakan pemusatan, merasa benar-benar tidak perlu dan membingungkan.
Frank Harrell
3
Baca kembali jawabannya dengan cermat. Kesimpulan Anda tidak berubah ketika Anda memusatkan variabel independen, atau menerapkan transformasi linear apa pun - jika mereka ditarik dengan benar. Multikolinearitas karena tidak memusatkan adalah masalah murni numerik & ditangani secara otomatis oleh perangkat lunak yang layak.
Scortchi
1
Fenomena ini (perubahan nilai-p) dapat dipahami sebagai konsekuensi dari sifat kuadrat interaksi, seperti yang dijelaskan di stats.stackexchange.com/questions/28730/… .
whuber

Jawaban:

23

Dalam model tanpa istilah interaksi (yaitu, tanpa istilah yang dikonstruksi sebagai produk dari istilah lain), koefisien regresi masing-masing variabel adalah kemiringan permukaan regresi ke arah variabel itu. Itu konstan, terlepas dari nilai-nilai variabel, dan karena itu dapat dikatakan untuk mengukur efek keseluruhan dari variabel itu.

Dalam model dengan interaksi, interpretasi ini dapat dibuat tanpa kualifikasi lebih lanjut hanya untuk variabel-variabel yang tidak terlibat dalam interaksi apa pun. Untuk variabel yang terlibat dalam interaksi, koefisien regresi "efek utama" - yaitu, koefisien regresi variabel dengan sendirinya - adalah kemiringan permukaan regresi ke arah variabel itu ketika semua variabel lain yang berinteraksi dengan variabel yang memiliki nilai nol , dan uji signifikansi koefisien mengacu pada kemiringan permukaan regresi hanya di wilayah ruang prediktor. Karena tidak ada persyaratan bahwa sebenarnya ada data di wilayah ruang tersebut, koefisien efek utama mungkin memiliki sedikit kemiripan dengan kemiringan permukaan regresi di wilayah ruang prediktor tempat data sebenarnya diamati.

Dalam istilah anova, koefisien efek utama analog dengan efek utama sederhana, bukan efek utama keseluruhan. Selain itu, itu mungkin merujuk pada apa yang dalam desain anova akan menjadi sel kosong di mana data dipasok dengan mengekstrapolasi dari sel dengan data.

Untuk mengukur efek keseluruhan variabel yang analog dengan efek utama keseluruhan dalam anova dan tidak mengekstrapolasi di luar wilayah tempat data diamati, kita harus melihat kemiringan rata-rata permukaan regresi ke arah variabel. , di mana rata-rata lebih dari N kasus yang benar-benar diamati. Kemiringan rata-rata ini dapat dinyatakan sebagai jumlah bobot dari koefisien regresi dari semua istilah dalam model yang melibatkan variabel yang dipermasalahkan.

Bobotnya canggung untuk digambarkan tetapi mudah didapat. Koefisien efek-utama variabel selalu mendapat bobot 1. Untuk setiap koefisien lain dari istilah yang melibatkan variabel itu, bobot adalah rata-rata produk dari variabel-variabel lain dalam istilah itu. Misalnya, jika kita memiliki lima variabel "mentah" x1, x2, x3, x4, x5, ditambah empat interaksi dua arah (x1,x2), (x1,x3), (x2,x3), (x4,x5), dan satu interaksi tiga arah (x1,x2,x3), maka modelnya adalah

y = b0 + b1*x1 + b2*x2 + b3*x3 + b4*x4 + b5*x5 +
    b12*x1*x2 + b13*x1*x3 + b23*x2*x3 + b45*x4*x5 +
    b123*x1*x2*x3 + e

dan keseluruhan efek utamanya adalah

B1 = b1 + b12*M[x2] + b13*M[x3] + b123*M[x2*x3],

B2 = b2 + b12*M[x1] + b23*M[x3] + b123*M[x1*x3],

B3 = b3 + b13*M[x1] + b23*M[x2] + b123*M[x1*x2],

B4 = b4 + b45*M[x5],

B5 = b5 + b45*M[x4],

di mana M [.] menunjukkan rata-rata sampel dari jumlah di dalam kurung. Semua istilah produk di dalam tanda kurung adalah di antara yang dibuat untuk melakukan regresi, sehingga program regresi harus sudah tahu tentang mereka dan harus dapat mencetak sarana mereka berdasarkan permintaan.

Dalam model yang hanya memiliki efek utama dan interaksi dua arah, ada cara yang lebih sederhana untuk mendapatkan efek keseluruhan: pusatkan [1] variabel mentah di tempatnya. Ini harus dilakukan sebelum menghitung persyaratan produk, dan tidak dilakukan pada produk. Kemudian semua ekspresi M [.] Akan menjadi 0, dan koefisien regresi akan ditafsirkan sebagai efek keseluruhan. Nilai-nilai b akan berubah; nilai-nilai B tidak akan. Hanya variabel yang terlibat dalam interaksi yang perlu dipusatkan, tetapi biasanya tidak ada salahnya memusatkan variabel yang diukur lainnya. Efek umum dari pemusatan suatu variabel adalah bahwa, selain mengubah intersep, hanya mengubah koefisien variabel lain yang berinteraksi dengan variabel terpusat. Khususnya, itu tidak mengubah koefisien dari istilah apa pun yang melibatkan variabel terpusat. Dalam contoh yang diberikan di atas, pemusatan x1 akan berubah b0, b2, b3, dan b23.

[1 - "Pemusatan" digunakan oleh orang yang berbeda dengan cara yang cukup berbeda sehingga menyebabkan kebingungan. Seperti yang digunakan di sini, "memusatkan variabel pada #" berarti mengurangi # dari semua skor pada variabel, mengonversi skor asli menjadi penyimpangan dari #.]

Jadi mengapa tidak selalu berpusat pada sarana, secara rutin? Tiga alasan. Pertama, koefisien efek-utama dari variabel yang tidak terpusat mungkin menarik. Pemusatan dalam kasus seperti itu akan menjadi kontra-produktif, karena mengubah koefisien efek utama dari variabel lain.

Kedua, pemusatan akan membuat semua ekspresi M [.] 0, dan dengan demikian mengubah efek sederhana menjadi efek keseluruhan, hanya dalam model tanpa interaksi tiga arah atau lebih tinggi . Jika model berisi interaksi seperti itu maka perhitungan b -> B masih harus dilakukan, bahkan jika semua variabel berpusat pada kemampuannya.

Ketiga, memusatkan pada nilai seperti rata-rata, yang ditentukan oleh distribusi prediktor sebagai lawan dipilih secara rasional, berarti bahwa semua koefisien yang dipengaruhi oleh pemusatan akan spesifik untuk sampel khusus Anda. Jika Anda memusatkan pada mean, maka seseorang yang mencoba mereplikasi studi Anda harus memusatkan pada mean Anda, bukan mean mereka sendiri, jika mereka ingin mendapatkan koefisien yang sama dengan yang Anda dapatkan. Solusi untuk masalah ini adalah dengan memusatkan setiap variabel pada nilai pusat yang dipilih secara rasional dari variabel yang bergantung pada makna skor dan tidak bergantung pada distribusi skor. Namun, perhitungan b -> B masih tetap diperlukan.

Signifikansi dari keseluruhan efek dapat diuji dengan prosedur yang biasa untuk menguji kombinasi linear dari koefisien regresi. Namun, hasilnya harus ditafsirkan dengan hati-hati karena efek keseluruhan bukan parameter struktural tetapi tergantung pada desain. Parameter struktural - koefisien regresi (tidak terpusat, atau dengan pemusatan rasional) dan varians kesalahan - dapat diperkirakan tetap tidak berubah di bawah perubahan distribusi prediktor, tetapi efek keseluruhan umumnya akan berubah. Efek keseluruhan spesifik untuk sampel tertentu dan tidak boleh diharapkan untuk dibawa ke sampel lain dengan distribusi yang berbeda pada prediktor. Jika efek keseluruhan signifikan dalam satu studi dan tidak dalam yang lain, itu mungkin mencerminkan tidak lebih dari perbedaan dalam distribusi prediktor.

Ray Koopman
sumber
10

Itu karena dalam setiap regresi yang melibatkan lebih dari satu prediktor, s adalah koefisien parsial; mereka ditafsirkan sebagai perubahan yang diprediksi dalam variabel dependen untuk setiap peningkatan 1 unit dalam sebuah prediktor, yang membuat semua prediktor lain konstan.β

Dalam regresi yang melibatkan istilah interaksi, misalnya , adalah peningkatan yang diharapkan dalam variabel dependen untuk setiap kenaikan 1 unit di , dengan mempertahankan semua istilah lainnya konstan . Ini adalah masalah untuk istilah , karena akan bervariasi karena bervariasi. Satu-satunya cara untuk mempertahankan konstanta istilah interaksi untuk peningkatan 1 unit baik pada atau (dua variabel yang terlibat dalam interaksi) adalah dengan mengatur variabel lain ke 0. Oleh karena itu, ketika variabel juga merupakan bagian dari istilah interaksi , interpretasi dariβ 1 x 1 β 3 x 1 x 2 x 1 x 1 x 1 x 2 βy=β1x1+β2x2+β3x1x2+ϵβ1x1β3x1x2x1x1x2βuntuk variabel ini tergantung pada variabel lainnya 0 - tidak hanya dianggap konstan.

Karena alasan ini, interpretasi dari s akan berubah tergantung pada di mana 0 berada pada variabel lain yang terlibat dalam interaksi; di mana 0 pada variabel bunga tidak benar-benar mengubah interpretasi koefisiennya. Dalam kasus ini, misalnya, adalah peningkatan yang diprediksi dalam untuk setiap kenaikan 1 unit di ketika . Jika hubungan antara dan berubah sebagai fungsi (seperti yang Anda hipotesiskan saat Anda memasukkan istilah interaksi), maka signifikansi akan berubah sebagai fungsi pemusatanβ 1 y x 1 x 2 = 0 x 1 y x 2 β 1 x 2ββ1yx1 x2=0x1yx2β1x2.

Juga, perhatikan bahwa jika nilai perubahan sangat sebagai fungsi pemusatan, maka istilah interaksi Anda mungkin signifikan; dan jika ya, menafsirkan "efek utama" bisa menyesatkan, karena ini berarti bahwa hubungan antara dan tergantung pada nilai , dan sebaliknya. Cara khas untuk mengatasinya adalah dengan memplot nilai prediksi untuk sebagai fungsi , untuk beberapa nilai (misalnya, 3; misalnya, 0 dan ± 1 SD).x 1 y x 2 y x 1 x 2βx1yx2yx1x2

Patrick Coulombe
sumber
-1

Saya sudah gila dengan pertanyaan yang sama, tetapi saya akhirnya menemukan solusi untuk masalah Anda dan saya. SEMUA ITU TENTANG BAGAIMANA ANDA MENGHITUNG VARIABEL PUSAT Tersedia dua opsi:
1. MEAN - VARIABEL INDIVIDUAL 2. VARIABEL INDIVIDUAL - MEAN
Anda mungkin menghitung variabel terpusat Anda sebagai (variabel individual - nilai rata-rata) , oleh karena itu mereka yang memiliki nilai rendah akan mendapatkan skor negatif, dan mereka yang memiliki nilai tinggi akan mendapatkan positif skor.
Saya akan menjelaskan dengan contoh untuk membuatnya lebih mudah dimengerti. Saya ingin melihat bagaimana kekuatan otot, memengaruhi massa tulang dan saya ingin mempertimbangkan jenis kelamin untuk melihat apakah itu memengaruhi secara berbeda pada anak perempuan dan laki-laki. Idenya adalah bahwa semakin tinggi kekuatan otot semakin tinggi massa tulang. Karena itu saya punya:

Variabel dependen: Massa tulang Variabel independen: Jenis Kelamin, kekuatan otot, interaksi_SEX_MUSCLEkekuatan.

Ketika saya menemukan multikolinieritas (biasanya Anda lakukan ketika Anda memiliki istilah interaksi), saya memusatkan kekuatan gelombang mikro (MEAN - VARIABEL INDIVIDU) dan menciptakan istilah interaksi baru dengan variabel terpusat baru. Koefisien saya adalah

Konstan: 0.902
Jenis Kelamin: -0.010(Anak laki-laki = 0; Gadis = 1)
Otot terpusat: -0.023
Interaksi: 0.0002
Oleh karena itu jika Anda ingin memperkirakan massa tulang anak laki-laki Anda akan memiliki persamaan berikut:
Massa tulang =0.902(00.010)(0.023musclecentredvalue)+(Interaction0.0002)

Melihat ini, Anda mungkin berpikir bahwa otot memengaruhi tulang secara negatif, tetapi Anda harus memikirkan variabel terpusat Anda, bukan variabel asli Anda. Katakanlah kekuatan otot rata-rata dari kelompok itu adalah 30 KG. Dan Anda ingin memperkirakan massa tulang anak laki-laki (WEAKBOY) yang tampil 20 KGdan yang lainnya yang tampil 40KG(STRONGBOY). Nilai tengah WEAKBOY akan menjadi (MEAN GROUP VALUE - VALUE INDIVIDUAL; 30 - 20 = 10), dan untuk STRONGBOY adalah -10. Menerapkan nilai-nilai ini ke persamaan:

WEAKBOY Massa tulang = 0,902 - 0 - (0,023 * 10) + .... = 0,672

STRONGBOY Massa tulang = 0,902 - (0,023 * (- 10)) + ... = 1,132

Seperti yang Anda lihat STRONGBOY memang akan memiliki tulang yang lebih kuat. Jika Anda telah memusatkan variabel Anda sebaliknya: (INDIVIDUAL - MEAN), semua koefisien akan sama tetapi simbol akan berbeda. Ini karena ketika Anda menerapkan variabel centered WEAKBOY akan menjadi (-10) dan STRONGBOY akan menjadi (+10). Karena itu hasil akhirnya akan persis sama.

Semuanya masuk akal begitu Anda memahaminya.

Semoga contohnya cukup jelas.

Alex Gomez
sumber
Kesalahan ini tidak akan menjelaskan perubahan dalam nilai-p. BTW, opsi Anda (1) tidak berpusat, karena termasuk mengalikan nilai dengan konstanta juga. (Konstanta adalah -1.)
whuber