Decision tree variabel (fitur) penskalaan dan variabel (fitur) normalisasi (tuning) diperlukan dalam implementasi yang mana?

10

Dalam banyak algoritme pembelajaran mesin, penskalaan fitur (penskalaan variabel, normalisasi) adalah langkah umum yang belum ada. Wikipedia - Penskalaan Fitur - pertanyaan ini hampir selesai. Pertanyaan # 41704 - Bagaimana dan mengapa kerja normalisasi dan penskalaan fitur berfungsi?

Saya punya dua pertanyaan khusus sehubungan dengan Pohon Keputusan:

  1. Apakah ada implementasi pohon keputusan yang membutuhkan penskalaan fitur? Saya mendapat kesan bahwa sebagian besar kriteria pemisahan algoritma acuh tak acuh terhadap skala.
  2. Pertimbangkan variabel-variabel ini: (1) Unit, (2) Jam, (3) Unit per Jam - apakah yang terbaik untuk membiarkan ketiga variabel ini "apa adanya" ketika dimasukkan ke dalam pohon keputusan atau apakah kita mengalami beberapa jenis konflik karena variabel "dinormalisasi" (3) berhubungan dengan (1) dan (2)? Yaitu, apakah Anda akan menyerang situasi ini dengan melemparkan ketiga variabel ke dalam campuran, atau apakah Anda biasanya memilih kombinasi dari ketiganya atau hanya menggunakan fitur "dinormalisasi / standar" (3)?
JasonAizkalns
sumber

Jawaban:

6

Untuk 1, pohon keputusan secara umum biasanya tidak memerlukan penskalaan. Namun, ini membantu dengan visualisasi / manipulasi data, dan mungkin berguna jika Anda bermaksud untuk membandingkan kinerja dengan data lain atau metode lain seperti SVM.

Untuk 2, ini adalah masalah penyetelan. Unit / jam dapat dianggap sebagai jenis interaksi variabel dan mungkin memiliki kekuatan prediksi yang berbeda dari masing-masing saja. Ini sangat tergantung pada data Anda. Saya akan mencoba dengan dan tanpa melihat apakah ada perbedaan.

wwwslinger
sumber