Variabel sering disesuaikan (misalnya standar) sebelum membuat model - kapan ini ide yang baik, dan kapan itu yang buruk?

57

Dalam keadaan apa yang ingin Anda, atau tidak ingin skala atau standarisasi variabel sebelum pemasangan model? Dan apa keuntungan / kerugian dari penskalaan variabel?

Andrew
sumber
Pertanyaan yang sangat mirip di sini: stats.stackexchange.com/q/7112/3748 apakah ada lagi yang Anda cari?
Michael Bishop
Ya - Saya ingin tahu model secara umum dan bukan hanya model linier
Andrew
1
Ada banyak model yang mungkin, dan kemungkinan penggunaan model. Jika Anda dapat membuat pertanyaan Anda lebih spesifik dan mengurangi tumpang tindih dengan pertanyaan lain yang lebih baik.
Michael Bishop
Selain tautan di atas, pertanyaan ini: kapan-jika-Anda-pusat-data-Anda-kapan-harus-Anda-standarkan akan menarik.
gung - Reinstate Monica

Jawaban:

37

Standardisasi adalah tentang bobot variabel yang berbeda untuk model. Jika Anda melakukan standarisasi "hanya" demi stabilitas numerik, mungkin ada transformasi yang menghasilkan sifat numerik yang sangat mirip tetapi makna fisik berbeda yang mungkin jauh lebih tepat untuk interpretasi. Hal yang sama berlaku untuk pemusatan, yang biasanya merupakan bagian dari standardisasi.

Situasi di mana Anda mungkin ingin melakukan standarisasi:

  • variabelnya adalah jumlah fisik yang berbeda
  • dan nilai numerik berada pada skala yang sangat berbeda
  • dan tidak ada pengetahuan "eksternal" bahwa variabel dengan variasi (numerik) tinggi harus dianggap lebih penting.

Situasi di mana Anda mungkin tidak ingin membakukan:

  • jika variabel-variabelnya adalah kuantitas fisik yang sama, dan (kira-kira) besarnya sama, misalnya
    • konsentrasi relatif dari spesies kimia yang berbeda
    • absorbansi pada panjang gelombang yang berbeda
    • Intensitas emisi (kondisi pengukuran yang sama) pada panjang gelombang berbeda
  • Anda pasti tidak ingin membakukan variabel yang tidak berubah di antara sampel (saluran dasar) - Anda hanya akan meledakkan derau pengukuran (Anda mungkin ingin mengeluarkannya dari model sebagai gantinya)
  • jika Anda memiliki variabel yang berhubungan secara fisik, noise pengukuran Anda mungkin kira-kira sama untuk semua variabel, tetapi intensitas sinyal jauh lebih bervariasi. Yaitu variabel dengan nilai rendah memiliki noise relatif lebih tinggi. Standarisasi akan meledakkan kebisingan. Dengan kata lain, Anda mungkin harus memutuskan apakah Anda ingin kebisingan relatif atau absolut distandarisasi.
  • Mungkin ada nilai-nilai bermakna secara fisik yang dapat Anda gunakan untuk menghubungkan nilai terukur Anda, misalnya, alih-alih intensitas yang ditransmisikan, gunakan persen dari intensitas yang ditransmisikan (T transmitansi).

Anda dapat melakukan sesuatu "di antara", dan mentransformasikan variabel atau memilih unit sehingga variabel baru masih memiliki makna fisik tetapi variasi dalam nilai numerik tidak jauh berbeda, misalnya

  • jika Anda bekerja dengan tikus, gunakan berat badan g dan panjang dalam cm (kisaran variasi yang diharapkan sekitar 5 untuk keduanya) alih-alih satuan dasar kg dan m (kisaran variasi yang diharapkan 0,005 kg dan 0,05 m - satu urutan besarnya berbeda).
  • A=log10T

Mirip untuk pemusatan:

  • Mungkin ada (dasar / fisik / kimia / biologis / ...) nilai-nilai dasar yang bermakna tersedia (misalnya kontrol, tirai, dll.)
  • Apakah maksudnya sebenarnya bermakna? (Manusia rata-rata memiliki satu ovarium dan satu testis)
Cbeleites mendukung Monica
sumber
1 dan diterima karena daftar kapan dan ke mana tidak terlalu standar, terima kasih
Andrew
6
+1 untuk "Rata-rata manusia memiliki satu ovarium dan satu testis" (& juga untuk sisa jawabannya ;-).
gung - Reinstate Monica
1
@cbeleites apakah ada kemungkinan Anda bisa memberikan tautan ke sumber daya yang menjelaskan saluran dasar dalam konteks yang Anda gunakan dalam jawaban Anda? Saya belum pernah mendengar istilah sebelumnya dan saya mendapatkan hasil pencarian yang tidak membantu dalam memahami penggunaan istilah ini di sini. Terima kasih!
mahonya
1
1
9

Satu hal yang selalu saya tanyakan pada diri saya sebelum standardisasi adalah, "Bagaimana saya akan menafsirkan output?" Jika ada cara untuk menganalisis data tanpa transformasi, ini mungkin lebih baik murni dari sudut pandang interpretasi.

jebyrnes
sumber
7

Secara umum saya tidak merekomendasikan penskalaan atau standardisasi kecuali jika benar-benar diperlukan. Keuntungan atau daya tarik dari proses semacam itu adalah bahwa, ketika variabel penjelas memiliki dimensi fisik dan besaran yang sama sekali berbeda dari variabel respons, penskalaan melalui pembagian dengan deviasi standar dapat membantu dalam hal stabilitas numerik, dan memungkinkan seseorang untuk membandingkan efek di beberapa variabel penjelas. Dengan standardisasi yang paling umum, efek variabel adalah jumlah perubahan dalam variabel respon ketika variabel penjelas meningkat satu standar deviasi; itu juga menunjukkan bahwa makna dari pengaruh variabel (jumlah perubahan dalam variabel respon ketika variabel penjelas meningkat satu unit) akan hilang meskipun nilai statistik untuk variabel penjelas tetap tidak berubah. Namun, ketika interaksi dipertimbangkan dalam suatu model, penskalaan bisa sangat bermasalah bahkan untuk pengujian statistik karena suatu komplikasi yang melibatkan penyesuaian penskalaan stokastik dalam menghitung kesalahan standar dari efek interaksi (Pengkhotbah, 2003). Untuk alasan ini, penskalaan dengan standar deviasi (atau standardisasi / normalisasi) umumnya tidak dianjurkan, terutama ketika interaksi terlibat.

Pengkhotbah, KJ, Curran, PJ, dan Bauer, DJ, 2006. Alat komputasi untuk menyelidiki efek interaksi dalam regresi linier berganda, pemodelan multilevel, dan analisis kurva laten. Jurnal Statistik Pendidikan dan Perilaku, 31 (4), 437-448.

bluepole
sumber
4
Saya mempertanyakan klaim Anda bahwa prediktor standardisasi "umumnya tidak direkomendasikan, terutama ketika interaksi terlibat." Baik Gelman dan Hill, maupun Raudenbush & Bryk tidak menyebutkan keprihatinan ini dalam teks mereka. Tetapi ketika saya memiliki kesempatan saya akan melihat referensi yang Anda sebutkan dengan penuh minat.
Michael Bishop
Jika kita menggunakan kalibrasi semesta std sebagai variabel penskalaan, maka penskalaan tidak stochastic.
Adam
Dapatkah seseorang mengonfirmasi bahwa penskalaan berbahaya jika terjadi interaksi? Itu sepertinya tidak terselesaikan dalam diskusi di atas.
Talik3233