Kapan dan bagaimana menggunakan variabel penjelas terstandarisasi dalam regresi linier

37

Saya punya 2 pertanyaan sederhana tentang regresi linier:

  1. Kapan disarankan untuk membakukan variabel penjelas?
  2. Setelah estimasi dilakukan dengan nilai-nilai terstandarisasi, bagaimana seseorang dapat memprediksi dengan nilai-nilai baru (bagaimana seseorang harus membuat standar nilai-nilai baru)?

Beberapa referensi akan sangat membantu.

penggoda
sumber
3
Jika perangkat lunak Anda ditulis dengan baik, maka secara otomatis akan dibakukan secara internal untuk menghindari masalah ketepatan angka. Anda tidak harus melakukan sesuatu yang istimewa.
whuber
1
Perhatikan bahwa utas berikut terkait, & akan menarik: Kapan Anda harus memusatkan data Anda & Kapan Anda harus melakukan standarisasi? .
gung - Reinstate Monica

Jawaban:

26

Meskipun terminologi adalah topik yang kontroversial, saya lebih suka memanggil variabel "penjelas", variabel "prediktor".

Kapan harus membakukan prediktor:

  • Banyak perangkat lunak untuk melakukan regresi linier berganda akan memberikan koefisien terstandarisasi yang setara dengan koefisien tidak standar di mana Anda menstandarkan prediktor secara manual dan variabel respons (tentu saja, sepertinya Anda hanya berbicara tentang prediktor standarisasi).
  • Pendapat saya adalah bahwa standardisasi adalah alat yang berguna untuk membuat persamaan regresi lebih bermakna. Ini terutama benar dalam kasus-kasus di mana metrik variabel tidak memiliki arti bagi orang yang menafsirkan persamaan regresi (misalnya, skala psikologis pada metrik arbitrer). Ini juga dapat digunakan untuk memfasilitasi komparabilitas kepentingan relatif variabel prediktor (meskipun ada pendekatan lain yang lebih canggih untuk menilai kepentingan relatif; lihat posting saya untuk diskusi ). Dalam kasus di mana metrik memiliki arti bagi orang yang menafsirkan persamaan regresi, koefisien yang tidak standar seringkali lebih informatif.
  • Saya juga berpikir bahwa mengandalkan variabel standar dapat mengalihkan perhatian dari fakta bahwa kita belum memikirkan bagaimana membuat metrik variabel lebih bermakna bagi pembaca.

  • Andrew Gelman memiliki sedikit bicara tentang topik ini. Lihat halamannya tentang standardisasi misalnya dan Gelman (2008, Stats Med, PDF GRATIS) khususnya.

Prediksi berdasarkan standarisasi:

  • Saya tidak akan menggunakan koefisien regresi standar untuk prediksi.
  • Anda selalu dapat mengonversi koefisien terstandarisasi menjadi koefisien tidak standar jika Anda mengetahui rata-rata dan standar deviasi variabel prediktor dalam sampel asli.
Jeromy Anglim
sumber
3
+1, tetapi mengapa Anda tidak menggunakan koefisien regresi yang tidak standar untuk prediksi?
onestop
1
(+1) Tentang menilai variabel penting, saya pikir paket R relaimpo melakukan pekerjaan dengan baik (tapi lihat Memulai dengan Pendekatan Modern untuk Regresi ). Ada juga makalah yang bagus oleh David V. Budescu tentang analisis dominasi (tersedia secara gratis berdasarkan permintaan).
chl
@tinggah oops. salah ketik. Sudah berubah sekarang.
Jeromy Anglim
1
@ Jeromy, Bisakah Anda menguraikan mengapa Anda tidak akan menggunakan koefisien regresi standar untuk prediksi?
Michael Bishop
3
@MichaelBishop Saya sedang memikirkan konteks di mana Anda mengambil model regresi Anda dan menerapkannya untuk memprediksi data sampel. Secara umum, Anda ingin prediksi yang tidak standar. Juga, berarti dan standar deviasi dapat berubah antar sampel; dengan menggunakan prediktor yang tidak standar seharusnya memberikan hasil yang lebih bermakna.
Jeromy Anglim
-4

Izinkan saya menjawab dengan adonan jawaban singkat yang mungkin tumpang tindih dengan jawaban excelent yang ditulis sebelumnya.

  1. Selalu standarisasi, yang memungkinkan Anda menafsirkan regresi, khususnya koefisien regresi dengan lebih baik.

  2. Untuk data baru yang tidak standar, saya sarankan Anda untuk menyimpan nilai-nilai yang Anda gunakan untuk setiap variabel untuk distandarisasi, seperti maksimum dan minimum, dan kemudian melakukan transformasi yang sama yang Anda lakukan dalam dataset lubang sebelumnya tetapi hanya untuk ini contoh tunggal.

mariana lebih lembut
sumber