Pemahaman saya adalah bahwa dalam pembelajaran mesin itu bisa menjadi masalah jika dataset Anda memiliki fitur yang sangat berkorelasi, karena mereka secara efektif menyandikan informasi yang sama.
Baru-baru ini seseorang menunjukkan bahwa ketika Anda melakukan enkode satu-panas pada variabel kategori Anda berakhir dengan fitur yang berkorelasi, jadi Anda harus membuang salah satu dari mereka sebagai "referensi".
Sebagai contoh, pengkodean gender sebagai dua variabel, is_male
dan is_female
, menghasilkan dua fitur yang berkorelasi negatif sempurna, sehingga mereka menyarankan hanya menggunakan salah satu dari mereka, secara efektif menetapkan garis dasar untuk mengatakan laki-laki, dan kemudian melihat apakah kolom is_female penting dalam algoritme prediktif .
Itu masuk akal bagi saya tetapi saya belum menemukan sesuatu yang online untuk menyarankan ini mungkin terjadi, jadi apakah ini salah atau saya kehilangan sesuatu?
Kemungkinan duplikat (tidak dijawab): Apakah collinearity dari satu fitur hot-encoded penting untuk SVM dan LogReg?
you end up with correlated features, so you should drop one of them as a "reference"
Variabel Dummy atau variabel indikator (ini adalah dua nama yang digunakan dalam statistik, sinonim dengan "one-hot encoding" dalam pembelajaran mesin) berkorelasi berpasangan, bagaimanapun, semua variabel k atau k-1. Jadi, kata yang lebih baik adalah "berlebihan secara statistik / informasi" daripada "berkorelasi".Does keeping all k values theoretically make them weaker features
. Tidak (meskipun saya tidak 100% yakin apa yang Anda maksud dengan "lebih lemah").using something like PCA
Perhatikan, untuk berjaga-jaga, PCA pada set boneka yang mewakili satu variabel kategori yang sama memiliki sedikit poin praktis karena korelasi di dalam set boneka hanya mencerminkan hubungan antara frekuensi kategori (jadi jika semua frekuensi sama semua korelasi sama) ke 1 / (k-1)).is_male
variabel yang bertentangan dengan kedua opsi? Mungkin itu tidak masuk akal dalam konteks ini, dan itu mungkin hanya menjadi masalah ketika Anda memiliki dua variabel berbeda yang benar-benar menyandikan informasi yang sama (misalnya tinggi dalam inci dan tinggi dalam cm).Jawaban:
lm
glm
Dengan model lain, gunakan prinsip yang sama. Jika prediksi yang diperoleh tergantung pada kolom mana yang Anda tinggalkan, maka jangan lakukan itu. Kalau tidak, tidak apa-apa.
Sejauh ini, jawaban ini hanya menyebutkan model linear (dan beberapa model non-linear). Tetapi bagaimana dengan model yang sangat tidak linier, seperti pohon dan hutan acak? Gagasan tentang pengkodean kategoris, seperti one-hot, sebagian besar berasal dari model linier dan ekstensi. Ada sedikit alasan untuk berpikir bahwa gagasan yang berasal dari konteks itu harus berlaku tanpa modifikasi untuk pohon dan hutan! untuk beberapa ide, lihat Regresi Hutan Acak dengan data jarang dengan Python .
sumber