Saya punya 2 pertanyaan sederhana tentang regresi linier:
- Kapan disarankan untuk membakukan variabel penjelas?
- Setelah estimasi dilakukan dengan nilai-nilai terstandarisasi, bagaimana seseorang dapat memprediksi dengan nilai-nilai baru (bagaimana seseorang harus membuat standar nilai-nilai baru)?
Beberapa referensi akan sangat membantu.
Jawaban:
Meskipun terminologi adalah topik yang kontroversial, saya lebih suka memanggil variabel "penjelas", variabel "prediktor".
Kapan harus membakukan prediktor:
Saya juga berpikir bahwa mengandalkan variabel standar dapat mengalihkan perhatian dari fakta bahwa kita belum memikirkan bagaimana membuat metrik variabel lebih bermakna bagi pembaca.
Andrew Gelman memiliki sedikit bicara tentang topik ini. Lihat halamannya tentang standardisasi misalnya dan Gelman (2008, Stats Med, PDF GRATIS) khususnya.
Prediksi berdasarkan standarisasi:
sumber
Izinkan saya menjawab dengan adonan jawaban singkat yang mungkin tumpang tindih dengan jawaban excelent yang ditulis sebelumnya.
Selalu standarisasi, yang memungkinkan Anda menafsirkan regresi, khususnya koefisien regresi dengan lebih baik.
Untuk data baru yang tidak standar, saya sarankan Anda untuk menyimpan nilai-nilai yang Anda gunakan untuk setiap variabel untuk distandarisasi, seperti maksimum dan minimum, dan kemudian melakukan transformasi yang sama yang Anda lakukan dalam dataset lubang sebelumnya tetapi hanya untuk ini contoh tunggal.
sumber