Apa yang disebut pengkodean "satu panas" dalam literatur ilmiah?

10

Apa nama operator yang mengambil vektor kategorikal dan mengubahnya menjadi representasi biner menggunakan pengkodean satu-panas? Saya bertanya-tanya karena saya sedang menulis makalah ilmiah dan perlu nama yang tepat untuk itu.

fraktur
sumber
3
Pengkodean dummy adalah nama lain. Dalam pembelajaran mesin, semua orang hanya menggunakan satu tipe sederhana sehingga cukup jelas apa ini, tetapi ada jenis pengkodean kontras lainnya (nama lain) dengan yang minus dan gagasan lain, yang melakukan peran yang sama, digunakan dalam statistik, dan sebagainya. Anda bisa sedikit lebih spesifik.
Gijs
7
Dalam statistik dan analisis data, jauh sebelum pembelajaran mesin, jenis pengkodean kategori ini telah dikenal sebagai variabel dummy alias variabel indikator jenis kontras.
ttnphns

Jawaban:

18

Ahli statistik menyebut pengkodean satu-panas sebagai pengkodean dummy . Seperti yang disarankan orang lain (termasuk Scortchi dalam komentar), ini bukan sinonim yang tepat, tetapi ini adalah istilah yang biasanya digunakan untuk variabel kategori 0-1 yang dikodekan.

Lihat juga: "Variabel dummy" versus "variabel indikator" untuk data nominal / kategorikal

Tim
sumber
3
Duh !! Tidak percaya saya lupa itu. Saya juga menyebutnya sebagai indikator.
Tim Atreides
2
Saya tidak berpikir "dummy coding" adalah sinonim yang baik. Ini digunakan baik dalam arti umum berarti mewakili variabel kategori dengan seperangkat variabel numerik, atau untuk "pengkodean level referensi" yang berbeda dari "pengodean satu-panas", misalnya dalam Masalah dengan pengodean satu-panas vs pengkodean dummy . "Level-means coding" (lihat Apakah ada sesuatu yang disebut "mean coding" (seperti dummy coding & effect coding) dalam model regresi? ) Menunjukkan pengkodean satu-panas, tetapi berkonotasi konteks model linear mungkin juga ...
Scortchi - Reinstate Monica
2
... sangat untuk penggunaan umum.
Scortchi
3
Saya belum pernah melihat definisi itu sendiri, tetapi bagi saya variabel dummy dalam statistik selalu menyiratkan pengkodean faktor N dengan variabel (N-1) sedangkan pengkodean satu-panas akan mengkodekan faktor N dengan variabel N. Perbedaan ini sangat penting dalam praktik. Jika seseorang menggunakan pengkodean satu-panas untuk regresi, ia akan mendapatkan omong kosong karena ketergantungan variabel!
meh
2
@aginensky Meskipun orang tentu harus memperhatikan dengan tepat variabel apa yang mereka miliki, rutinitas regresi yang baik tidak akan menghasilkan omong kosong dalam keadaan itu: itu hanya akan menghilangkan satu prediktor dan memberitahu Anda begitu.
Nick Cox
8

Itu tergantung pada audiens target Anda.

Seperti kata Tim , ahli statistik menyebutnya dummy coding, dan itulah yang saya harapkan untuk dilihat ketika menggambarkan sesuatu seperti model regresi. "Variabel kode Dummy dimasukkan untuk menyesuaikan lokasi toko." Saya pikir menyebutnya pengkodean satu panas akan terasa sedikit aneh di sini.

Namun, seperti yang dikatakan Tim lain , pengkodean satu-panas cukup umum dalam literatur pembelajaran mesin. Samar-samar menyiratkan keberadaan node (seperti dalam jaringan saraf), kabel fisik (dalam perangkat), atau sesuatu seperti itu, setidaknya bagi saya.

IX

Matt Krause
sumber
6

Istilah ini berasal dari teknik elektronik. Pikirkan siapa yang akan menyebut 1 "panas"? Hanya mereka yang bekerja dengan listrik, di mana "panas" atau "hidup" berarti ada potensi listrik pada kabel . "One hot" mengacu pada desain sirkuit di mana level sinyal listrik diskrit pada satu kawat akan diterjemahkan menjadi panas / dingin pada satu set kabel. Saya kira beberapa orang belajar mesin dengan latar belakang EE menemukan analogi yang menarik.

Dalam ekonometrika dan statistik Anda mungkin menemukan dummyatau indicatorvariabel, yang sangat mirip karena ini digunakan untuk mewakili kategori yang berbeda dengan indikator yang berbeda. Ada perbedaan yang halus. Misalnya, Anda membuat boneka K-1 untuk kategori K, karena kategori dasar sesuai dengan semua boneka yang ditetapkan ke 0. Sebaliknya, saya pikir dalam satu pengkodean panas Anda memiliki kabel K, di mana kategori dasar akan memiliki kawat sendiri ( variabel).

Aksakal
sumber
5

Saya terlatih secara statistik, dan baru-baru ini mendengar tentang "one-hot encoding" dalam pembelajaran mesin / komputer sci lit. Saya biasanya hanya merujuk ke matriks satu-hotted sebagai matriks desain / data matriks / bingkai desain.

Tim Atreides
sumber
Apakah Anda memiliki referensi yang dapat saya kutip untuk itu? Saya menulis publikasi ilmiah dan ingin menjelaskan tentang metode ini untuk semua pembaca karena makalah ini bukan untuk komunitas ML tetapi lebih luas.
Fraktur
Tidak bisa mengatakan saya pernah mendengar "satu-benci" sebagai kata kerja. Tapi saya juga datang ke ini dari arah matematika / statistik. (Hasil Google pada "one-hotted" menarik - saya mendapatkan campuran makna pembelajaran mesin dan orang-orang berbicara tentang "one hotted-up car".)
Michael Lugo
3

Dalam ilmu fisika dan teknik, disebut delta Kronecker (umum) .

δi,j{1ifi=j0else,
δ[condition]{1if[condition]0else.

δicategory

δicategory{1ificategory0else,
δi

Delta Kronecker sangat berguna dalam Sigma / Pi / Einstein / etc. notasi karena memungkinkan untuk istilah yang ditentukan secara kondisional.

Hanya untuk menghubungkan ini dengan struktur pemrograman umum, yang Kronecker delta ini condition?1:0, di mana ?:adalah operator kondisional .


δi,jδi=j

Nat
sumber
Saya tidak melihat tautannya di sini. Satu panas menerjemahkan satu variabel menjadi satu set untuk setiap keadaan variabel. Bagaimana delta Kronecker digunakan dalam aplikasi ini?
Aksakal
{0,1}δVWδAcuraδHonda
δi,jδCompanyName,VW
VWACURAi=1..NVWiACURAiiCARiVWi=δ(CARi,VW)
VWiδVWiδiVWi10
2

1K

Ini kutipan dari buku,

K1KKxxk10K=6x3=1x

x=(0,0,1,0,0,0)T

kedarps
sumber