Standarisasi variabel dan kolinearitas

10

Collinearity dapat menimbulkan masalah tertentu dalam berbagai macam masalah regresi. Secara khusus, ini dapat membuat estimasi parameter memiliki varian tinggi dan menjadi tidak stabil.

Berbagai metode telah diusulkan untuk menangani hal ini termasuk regresi ridge, regresi kuadrat terkecil parsial, regresi komponen utama, menjatuhkan variabel dan mendapatkan lebih banyak data.

Salah satu metode yang kontroversial adalah standarisasi atau penskalaan variabel independen, dengan berbagai ahli mengatakan itu adalah ide yang baik (misalnya Garcia) atau buruk (misalnya Belsley). Masalah Belsley tampaknya (dalam istilah non-teknis) bahwa mengubah infus hanya mendorong masalah di bawah permadani. Tetapi para ahli lain tampaknya tidak setuju. Dan penulis cenderung menjadi agak panas dalam mempertahankan posisi mereka sendiri.

Kembali ketika saya melakukan disertasi (pada diagnosa collinearity) saya menemukan argumen Belsley meyakinkan, tapi itu sudah lama sekali (saya mendapatkan gelar saya pada tahun 1999).

Saya mencari petunjuk ahli atau artikel ulasan saat ini yang tidak bias.

Peter Flom
sumber
3
Saya tidak memiliki referensi modern untuk Anda - otoritas saya masih Belsley Kuh & Welsch 1981 - tetapi saya dapat mengatakan bahwa pengalaman baru-baru ini dalam memperbaiki perangkat lunak regresi tertentu meyakinkan saya bahwa memang ada beberapa nilai dalam standardisasi awal. Dalam aplikasi, satu variabel adalah waktu yang, dalam Rkerangka ini , diwakili dalam hitungan detik sejak awal tahun 1970. Dengan demikian, itu cenderung sembilan kali lipat lebih besar dari semua kovariat. Cukup dengan menstandarkan waktu, memecahkan masalah floating point parah yang terjadi dalam optimizer kemungkinan.
Whuber
6
Secara konseptual (bukan secara numerik), saya masih berpikir Arthur Goldberger sangat tepat: "Teks ekonometrik mencurahkan banyak halaman untuk masalah multikolinieritas dalam regresi berganda, tetapi mereka mengatakan sedikit tentang masalah analog yang erat dari ukuran sampel kecil dalam memperkirakan rata-rata univariat. Mungkin bahwa ketidakseimbangan disebabkan oleh kurangnya nama polisilabik eksotis untuk 'ukuran sampel kecil'. Jika demikian, kita dapat menghilangkan hambatan itu dengan memperkenalkan istilah mikronumerositas "
CloseToC
1
@ Peter Flom: Konsisten dengan komentar Whuber, saya (sangat) samar-samar ingat bahwa standarisasi dengan bahkan hanya membuat prediktor memiliki nol berarti sangat membantu.
mlofton

Jawaban:

4

Bagi saya tidak begitu jelas apa arti standardisasi, dan ketika mencari sejarah saya mengambil dua referensi yang menarik.

Artikel terbaru ini memiliki ikhtisar historis dalam pendahuluan:

García, J., Salmerón, R., García, C., & López Martín, MDM (2016). Standarisasi variabel dan diagnostik collinearity dalam regresi ridge. Tinjauan Statistik Internasional, 84 (2), 245-266

Saya menemukan artikel menarik lain yang semacam klaim untuk menunjukkan bahwa standardisasi, atau pemusatan, tidak berpengaruh sama sekali.

Echambadi, R., & Hess, JD (2007). Mean-centering tidak mengurangi masalah collinearity dalam model regresi berganda yang dimoderasi.Ilmu Pemasaran, 26 (3), 438-445.


Bagi saya, kritik ini sepertinya seperti kehilangan inti tentang ide keterpusatan.

Satu-satunya hal yang ditunjukkan Echambadi dan Hess adalah bahwa modelnya setara dan bahwa Anda dapat mengekspresikan koefisien dari model terpusat dalam hal koefisien dari model yang tidak berpusat, dan sebaliknya (menghasilkan varian / kesalahan yang serupa dari koefisien) ).

Hasil Echambadi dan Hess agak sepele dan saya percaya bahwa ini (hubungan dan kesetaraan antara koefisien) tidak diklaim tidak benar oleh siapa pun. Tidak ada yang mengklaim bahwa hubungan antara koefisien tidak benar. Dan itu bukan titik variabel keterpusatan.

Inti dari keterpusatan adalah bahwa dalam model dengan istilah linear dan kuadrat Anda dapat memilih skala koordinat yang berbeda sehingga Anda akhirnya bekerja dalam bingkai yang tidak memiliki atau kurang korelasi antara variabel. Katakanlah Anda ingin mengungkapkan efek waktut pada beberapa variabel Y dan Anda ingin melakukan ini selama beberapa periode yang dinyatakan dalam tahun-tahun setelah AD katakan dari tahun 1998 hingga 2018. Dalam hal ini, apa yang dimaksud dengan teknik pemusatan adalah untuk menyelesaikannya adalah bahwa

"Jika Anda menyatakan keakuratan koefisien untuk dependensi linear dan kuadrat pada waktu, maka mereka akan memiliki lebih banyak variasi saat Anda menggunakan waktu t mulai dari tahun 1998 hingga 2018 bukan waktu yang terpusat t mulai dari -10 hingga 10 ".

Y=Sebuah+bt+ct2

melawan

Y=Sebuah+b(t-T)+c(t-T)2

Tentu saja, kedua model ini setara dan bukannya memusatkan Anda bisa mendapatkan hasil yang sama persis (dan karenanya kesalahan yang sama dari koefisien yang diperkirakan) dengan menghitung koefisien seperti

Sebuah=Sebuah-bT+cT2b=b-2cTc=c

juga saat Anda melakukan ANOVA atau menggunakan ekspresi seperti R2 maka tidak akan ada perbedaan.

Namun, itu sama sekali bukan inti dari pemusatan rata-rata. Inti dari pemusatan rata-rata adalah bahwa kadang-kadang seseorang ingin mengkomunikasikan koefisien dan estimasi varians / akurasi atau interval kepercayaan mereka, dan untuk kasus-kasus itu tidak masalah bagaimana model diekspresikan.

Contoh: seorang fisikawan ingin menyatakan beberapa hubungan eksperimental untuk beberapa parameter X sebagai fungsi temperatur kuadratik.

  T   X
  298 1230
  308 1308
  318 1371
  328 1470
  338 1534
  348 1601
  358 1695
  368 1780
  378 1863
  388 1940
  398 2047

tidak akan lebih baik untuk melaporkan interval 95% untuk koefisien seperti

                 2.5 %      97.5 %

(Intercept)      1602       1621
T-348               7.87       8.26
(T-348)^2           0.0029     0.0166

dari pada

                  2.5 %     97.5 %

(Intercept)       -839       816
T                   -3.52      6.05
T^2                  0.0029    0.0166

Dalam kasus terakhir, koefisien akan diekspresikan dengan margin kesalahan yang tampaknya besar (tetapi tidak mengatakan apa pun tentang kesalahan dalam model), dan selain itu korelasi antara distribusi kesalahan tidak akan jelas (dalam kasus pertama kesalahan dalam koefisien tidak akan dikorelasikan).

Jika seseorang mengklaim, seperti Echambadi dan Hess, bahwa kedua ekspresi itu hanya setara dan pemusatan tidak masalah, maka kita harus (sebagai konsekuensinya menggunakan argumen serupa) juga mengklaim bahwa ekspresi untuk koefisien model (ketika tidak ada penyadapan alami dan pilihannya arbitrer) dalam hal interval kepercayaan atau kesalahan standar tidak pernah masuk akal.

Dalam pertanyaan / jawaban ini sebuah gambar ditampilkan yang juga menyajikan ide ini bagaimana interval kepercayaan 95% tidak memberi tahu banyak tentang kepastian koefisien (setidaknya tidak secara intuitif) ketika kesalahan dalam estimasi koefisien berkorelasi.

gambar

Sextus Empiricus
sumber
Terima kasih! Saya telah melihat Garcia tetapi bukan artikel lain yang Anda sebutkan.
Peter Flom