Collinearity dapat menimbulkan masalah tertentu dalam berbagai macam masalah regresi. Secara khusus, ini dapat membuat estimasi parameter memiliki varian tinggi dan menjadi tidak stabil.
Berbagai metode telah diusulkan untuk menangani hal ini termasuk regresi ridge, regresi kuadrat terkecil parsial, regresi komponen utama, menjatuhkan variabel dan mendapatkan lebih banyak data.
Salah satu metode yang kontroversial adalah standarisasi atau penskalaan variabel independen, dengan berbagai ahli mengatakan itu adalah ide yang baik (misalnya Garcia) atau buruk (misalnya Belsley). Masalah Belsley tampaknya (dalam istilah non-teknis) bahwa mengubah infus hanya mendorong masalah di bawah permadani. Tetapi para ahli lain tampaknya tidak setuju. Dan penulis cenderung menjadi agak panas dalam mempertahankan posisi mereka sendiri.
Kembali ketika saya melakukan disertasi (pada diagnosa collinearity) saya menemukan argumen Belsley meyakinkan, tapi itu sudah lama sekali (saya mendapatkan gelar saya pada tahun 1999).
Saya mencari petunjuk ahli atau artikel ulasan saat ini yang tidak bias.
sumber
R
kerangka ini , diwakili dalam hitungan detik sejak awal tahun 1970. Dengan demikian, itu cenderung sembilan kali lipat lebih besar dari semua kovariat. Cukup dengan menstandarkan waktu, memecahkan masalah floating point parah yang terjadi dalam optimizer kemungkinan.Jawaban:
Bagi saya tidak begitu jelas apa arti standardisasi, dan ketika mencari sejarah saya mengambil dua referensi yang menarik.
Artikel terbaru ini memiliki ikhtisar historis dalam pendahuluan:
García, J., Salmerón, R., García, C., & López Martín, MDM (2016). Standarisasi variabel dan diagnostik collinearity dalam regresi ridge. Tinjauan Statistik Internasional, 84 (2), 245-266
Saya menemukan artikel menarik lain yang semacam klaim untuk menunjukkan bahwa standardisasi, atau pemusatan, tidak berpengaruh sama sekali.
Echambadi, R., & Hess, JD (2007). Mean-centering tidak mengurangi masalah collinearity dalam model regresi berganda yang dimoderasi.Ilmu Pemasaran, 26 (3), 438-445.
Bagi saya, kritik ini sepertinya seperti kehilangan inti tentang ide keterpusatan.
Satu-satunya hal yang ditunjukkan Echambadi dan Hess adalah bahwa modelnya setara dan bahwa Anda dapat mengekspresikan koefisien dari model terpusat dalam hal koefisien dari model yang tidak berpusat, dan sebaliknya (menghasilkan varian / kesalahan yang serupa dari koefisien) ).
Hasil Echambadi dan Hess agak sepele dan saya percaya bahwa ini (hubungan dan kesetaraan antara koefisien) tidak diklaim tidak benar oleh siapa pun. Tidak ada yang mengklaim bahwa hubungan antara koefisien tidak benar. Dan itu bukan titik variabel keterpusatan.
Inti dari keterpusatan adalah bahwa dalam model dengan istilah linear dan kuadrat Anda dapat memilih skala koordinat yang berbeda sehingga Anda akhirnya bekerja dalam bingkai yang tidak memiliki atau kurang korelasi antara variabel. Katakanlah Anda ingin mengungkapkan efek waktut pada beberapa variabel Y dan Anda ingin melakukan ini selama beberapa periode yang dinyatakan dalam tahun-tahun setelah AD katakan dari tahun 1998 hingga 2018. Dalam hal ini, apa yang dimaksud dengan teknik pemusatan adalah untuk menyelesaikannya adalah bahwa
"Jika Anda menyatakan keakuratan koefisien untuk dependensi linear dan kuadrat pada waktu, maka mereka akan memiliki lebih banyak variasi saat Anda menggunakan waktut mulai dari tahun 1998 hingga 2018 bukan waktu yang terpusat t′ mulai dari -10 hingga 10 ".
melawan
Tentu saja, kedua model ini setara dan bukannya memusatkan Anda bisa mendapatkan hasil yang sama persis (dan karenanya kesalahan yang sama dari koefisien yang diperkirakan) dengan menghitung koefisien seperti
juga saat Anda melakukan ANOVA atau menggunakan ekspresi sepertiR2 maka tidak akan ada perbedaan.
Namun, itu sama sekali bukan inti dari pemusatan rata-rata. Inti dari pemusatan rata-rata adalah bahwa kadang-kadang seseorang ingin mengkomunikasikan koefisien dan estimasi varians / akurasi atau interval kepercayaan mereka, dan untuk kasus-kasus itu tidak masalah bagaimana model diekspresikan.
Contoh: seorang fisikawan ingin menyatakan beberapa hubungan eksperimental untuk beberapa parameter X sebagai fungsi temperatur kuadratik.
tidak akan lebih baik untuk melaporkan interval 95% untuk koefisien seperti
dari pada
Dalam kasus terakhir, koefisien akan diekspresikan dengan margin kesalahan yang tampaknya besar (tetapi tidak mengatakan apa pun tentang kesalahan dalam model), dan selain itu korelasi antara distribusi kesalahan tidak akan jelas (dalam kasus pertama kesalahan dalam koefisien tidak akan dikorelasikan).
Jika seseorang mengklaim, seperti Echambadi dan Hess, bahwa kedua ekspresi itu hanya setara dan pemusatan tidak masalah, maka kita harus (sebagai konsekuensinya menggunakan argumen serupa) juga mengklaim bahwa ekspresi untuk koefisien model (ketika tidak ada penyadapan alami dan pilihannya arbitrer) dalam hal interval kepercayaan atau kesalahan standar tidak pernah masuk akal.
Dalam pertanyaan / jawaban ini sebuah gambar ditampilkan yang juga menyajikan ide ini bagaimana interval kepercayaan 95% tidak memberi tahu banyak tentang kepastian koefisien (setidaknya tidak secara intuitif) ketika kesalahan dalam estimasi koefisien berkorelasi.
sumber