Saya ingin memasukkan istilah dan kuadrat (variabel prediktor) ke dalam regresi karena saya berasumsi bahwa nilai rendah memiliki efek positif pada variabel dependen dan nilai-nilai tinggi memiliki efek negatif. The harus menangkap efek dari nilai-nilai yang lebih tinggi. Karena itu saya berharap bahwa koefisien akan menjadi positif dan koefisien akan negatif. Selain , saya juga menyertakan variabel prediktor lainnya.
Saya membaca di beberapa posting di sini bahwa itu adalah ide yang baik untuk memusatkan variabel dalam kasus ini untuk menghindari multikolinearitas. Saat melakukan regresi berganda, kapan Anda harus memusatkan variabel prediktor Anda & kapan Anda harus membakukannya?
Haruskah saya memusatkan kedua variabel secara terpisah (rata-rata) atau haruskah saya hanya memusatkan dan kemudian mengambil kuadrat atau haruskah saya hanya memusatkan dan memasukkan asli ?
Apakah masalah jika adalah variabel jumlah?
Untuk menghindari menjadi variabel hitungan, saya berpikir untuk membaginya dengan area yang ditentukan secara teoritis, misalnya 5 kilometer persegi. Ini harus sedikit mirip dengan perhitungan kepadatan titik.
Namun, saya takut bahwa dalam situasi ini asumsi awal saya tentang tanda koefisien tidak akan berlaku lagi, seperti ketika dan
=
tetapi akan lebih kecil karena .
Jawaban:
Pertanyaan Anda sebenarnya terdiri dari beberapa sub-pertanyaan, yang akan saya coba selesaikan sesuai dengan pemahaman saya.
Mempertimbangkan dan adalah cara melakukannya, tetapi apakah Anda yakin tes Anda meyakinkan? Apakah Anda dapat menyimpulkan sesuatu yang berguna untuk semua hasil yang mungkin dari regresi? Saya pikir mengajukan pertanyaan dengan jelas sebelumnya dapat membantu, dan mengajukan pertanyaan serupa dan terkait dapat membantu juga. Misalnya, Anda dapat mempertimbangkan ambang yang kemiringan regresinya berbeda. Ini dapat dilakukan dengan menggunakan variabel moderator . Jika lereng yang berbeda (sambil memaksakan intersep yang sama) kompatibel maka Anda tidak memiliki perbedaan, jika tidak, Anda memberikan argumen yang jelas untuk perbedaannya.x 2 xx x2 x
Saya pikir pertanyaan ini tidak boleh dicampur dengan pertanyaan dan tes pertama, dan saya takut berpusat di sekitar atau sebelumnya mungkin bias hasilnya. Saya menyarankan untuk tidak memusatkan, paling tidak pada tahap pertama. Ingat Anda mungkin tidak akan mati karena multikolinieritas, banyak penulis berpendapat itu hanya setara dengan bekerja dengan ukuran sampel yang lebih kecil (di sini dan di sini ).x 2x x2
Ya itu akan, tetapi ini akan sangat bergantung pada 2 poin pertama, jadi saya sarankan Anda untuk membahas satu hal pada satu waktu. Saya tidak melihat alasan mengapa regresi tidak akan berfungsi tanpa transformasi ini, jadi saya akan menyarankan Anda untuk mengabaikannya untuk saat ini. Perhatikan juga bahwa dengan membaginya dengan elemen umum Anda mengubah skala di mana , tetapi ada cara yang benar-benar berbeda dalam memandangnya, seperti yang saya tulis di atas, di mana ambang ini dianggap secara lebih eksplisit.x2=x
sumber
Secara umum pemusatan dapat membantu mengurangi multikolinieritas, tetapi "Anda mungkin tidak akan mati karena multikolinieritas" (lihat jawaban predrofigueira).
Yang paling penting, pemusatan sering diperlukan untuk membuat intersepsi bermakna. Dalam model sederhana , intersep didefinisikan sebagai hasil yang diharapkan untuk . Jika nilai nol tidak berarti, maka itercept juga tidak. Seringkali berguna untuk memusatkan variabel sekitar nilai rata-rata; dalam hal ini, prediktornya berbentuk dan intersep adalah hasil yang diharapkan untuk subjek yang nilainya pada sama dengan mean .x = 0 x x ( x i - ˉ x ) α x i ˉ xyi=α+βxi+ε x=0 x x (xi−x¯) α xi x¯
Dalam kasus tersebut, Anda harus memusatkan dan kemudian persegi. Anda tidak dapat memusatkan dan secara terpisah, karena Anda membuat regresi hasil pada variabel "baru", , jadi Anda harus variabel baru ini. Apa artinya pemusatan ?x x 2 ( x i - ˉ x ) x 2x x x2 (xi−x¯) x2
Anda dapat memusatkan variabel jumlah, jika nilai tengahnya bermakna , tetapi Anda bisa mengukurnya . Misalnya, jika dan "2" bisa menjadi garis dasar, Anda dapat mengurangi 2:x=1,2,3,4,5 . Mencegat menjadi hasil yang diharapkan untuk subjek yang nilainya di x i adalah sama dengan "2", nilai referensi.(xi−2)=−1,0,1,2,3 xi
Mengenai pembagian, tidak ada masalah: estimasi koefisien Anda akan lebih besar! Gelman and Hill , §4.1, berikan contoh:
sumber
Sementara saya menghargai perlakuan orang lain tentang pemusatan dan interpretasi koefisien, apa yang telah Anda uraikan di sini hanyalah efek linear. Dengan kata lain, apa yang telah Anda jelaskan tidak menunjukkan adanya kebutuhan untuk menguji kuadrat x .
sumber