Apa perbedaan antara satu pengkodean panas dan meninggalkan satu pengkodean keluar?

13

Saya membaca presentasi dan merekomendasikan untuk tidak menggunakan menyisakan satu penyandian, tetapi tidak masalah dengan satu penyandian panas. Saya pikir mereka berdua sama. Adakah yang bisa menggambarkan perbedaan di antara mereka?

ICM
sumber
1
Tidak jelas (hanya dari pertanyaan Anda) apa saja cuti itu. Anda harus mengedit ini untuk memberi petunjuk dan menjelaskan secara singkat pengertian Anda tentang keduanya, dan mengapa Anda berpikir keduanya sama.
Sean Owen

Jawaban:

15

Mereka mungkin menggunakan "tinggalkan satu pengkodean" untuk merujuk pada strategi Owen Zhang.

Dari: https://www.kaggle.com/c/caterpillar-tube-pricing/forums/t/15748/strategies-to-encode-categorical-variables-with-many-categories

Kolom yang dikodekan bukan variabel dummy konvensional, tetapi sebaliknya adalah respons rata-rata atas semua baris untuk tingkat kategori ini, tidak termasuk baris itu sendiri. Ini memberi Anda keuntungan memiliki representasi satu kolom dari kategori sambil menghindari kebocoran respons langsung

Gambar ini mengekspresikan ide dengan baik. masukkan deskripsi gambar di sini

Dex Groves
sumber
Penjelasan Anda lebih baik daripada wacax di tautan yang dirujuk, terima kasih
Allan Ruin
Hai @Dex Groves, jadi pengkodean Leave_one_out untuk tes selalu .5?
user7117436
3
Hai! Seperti yang terlihat dari gambar, contoh paticular ini berkaitan dengan masalah klasifikasi. Adakah yang punya pengalaman dengan pengkodean LOO dalam masalah regresi? Pertanyaan utamanya adalah bagaimana cara menjumlahkan variabel target. Saya sekarang sedang melakukan percobaan dan mendapatkan overfitting besar dengan mean (y).
Alexey Trofimov
1
untuk masalah pengelompokan (tanpa pengawasan), apakah mungkin untuk menggunakan pengodean seperti ini?
enneppi
@AlexeyTrofimov - coba agregasi dengan varian yang lebih rendah. Saya akan mulai dengan binning yang berbeda (seperti 1K, 2K, 2M, .. untuk nilai int besar, atau pembulatan ke tempat desimal untuk nilai float y) => rata-rata (bin_f (y))
mork