Saya menyadari fakta bahwa variabel kategori dengan level k harus dikodekan dengan variabel k-1 dalam pengkodean dummy (sama untuk variabel kategori multi-dihargai). Saya bertanya-tanya berapa banyak masalah melakukan pengkodean satu-panas (yaitu menggunakan variabel k sebagai gantinya) atas pengkodean dummy untuk metode regresi yang berbeda, terutama regresi linier, regresi linier dihukum (Lasso, Ridge, ElasticNet), berbasis pohon (hutan acak) , mesin peningkat gradien).
Saya tahu bahwa dalam regresi linear, masalah multi-collinearity terjadi (meskipun dalam praktiknya saya telah menggunakan regresi linear menggunakan OHE tanpa masalah).
Namun, apakah pengkodean dummy perlu digunakan dalam semua itu dan bagaimana salah hasilnya jika seseorang menggunakan pengkodean satu-panas?
Fokus saya adalah prediksi model regresi dengan beberapa variabel kategori (kardinalitas tinggi), jadi saya tidak tertarik pada interval kepercayaan.
Jawaban:
Masalah dengan merepresentasikan variabel kategori yang memiliki level dengan variabel dalam regresi adalah bahwa, jika model juga memiliki suku yang konstan, maka syarat-syaratnya akan bergantung secara linier dan karenanya model tersebut tidak dapat diidentifikasi. Misalnya, jika modelnya adalah dan , maka semua pilihan dari vektor parameter tidak dapat dibedakan dari . Jadi, meskipun perangkat lunak mungkin bersedia memberi Anda perkiraan untuk parameter ini, mereka tidak ditentukan secara unik dan karenanya mungkin tidak akan sangat berguna.kk k μ=a0+a1X1+a2X2 X2=1−X1 (β0,β1,β2) (β0+β2,β1−β2,0)
Penalti akan membuat model dapat diidentifikasi, tetapi pengkodean yang berlebihan masih akan mempengaruhi nilai parameter dengan cara yang aneh, mengingat hal di atas.
Efek pengkodean redundan pada pohon keputusan (atau ansambel pohon) kemungkinan akan kelebihan berat fitur dalam pertanyaan relatif terhadap yang lain, karena itu diwakili dengan variabel redundan tambahan dan karena itu akan dipilih lebih sering daripada yang seharusnya untuk split.
sumber
Kodiologist punya jawaban bagus (+1). Metode enkode enkode satu-hot vs dummy adalah sama, dalam hal matriks desain berada di ruang yang sama, dengan dasar yang berbeda. (meskipun pengodean satu-panas memiliki lebih banyak kolom)
Karena itu jika Anda berfokus pada akurasi daripada interpretabilitas. Dua metode pengkodean tidak membuat perbedaan.
sumber
Saya merasa jawaban terbaik untuk pertanyaan ini dimakamkan di komentar oleh @MatthewDrury, yang menyatakan bahwa ada adalah perbedaan dan bahwa Anda harus menggunakan kolom yang tampaknya berlebihan dalam pendekatan regularized. @ Alasan MatthewDrury adalah
Saya pikir dia ada benarnya.
sumber
k
level atauk-1
level tergantung pada situasinya. Selain pernyataan Anda (diatur / tidak diatur), apakah akan ada pedoman tentang apa yang harus dilakukan dalam semua kasus?