Saya membaca presentasi dan merekomendasikan untuk tidak menggunakan menyisakan satu penyandian, tetapi tidak masalah dengan satu penyandian panas. Saya pikir mereka berdua sama. Adakah yang bisa menggambarkan perbedaan di antara mereka?
13
Jawaban:
Mereka mungkin menggunakan "tinggalkan satu pengkodean" untuk merujuk pada strategi Owen Zhang.
Dari: https://www.kaggle.com/c/caterpillar-tube-pricing/forums/t/15748/strategies-to-encode-categorical-variables-with-many-categories
Kolom yang dikodekan bukan variabel dummy konvensional, tetapi sebaliknya adalah respons rata-rata atas semua baris untuk tingkat kategori ini, tidak termasuk baris itu sendiri. Ini memberi Anda keuntungan memiliki representasi satu kolom dari kategori sambil menghindari kebocoran respons langsung
Gambar ini mengekspresikan ide dengan baik.
sumber