Adakah alasan bagus untuk memilih nilai biner (0/1) daripada nilai diskrit atau dinormalisasi berkelanjutan , misalnya (1; 3), sebagai input untuk jaringan umpan-maju untuk semua node input (dengan atau tanpa backpropagation)?
Tentu saja, saya hanya berbicara tentang input yang dapat diubah menjadi bentuk apa pun; misalnya, ketika Anda memiliki variabel yang dapat mengambil beberapa nilai, baik secara langsung memberinya nilai sebagai satu simpul input, atau membentuk simpul biner untuk setiap nilai diskrit. Dan asumsinya adalah bahwa rentang nilai yang mungkin akan sama untuk semua node input. Lihat foto untuk contoh kedua kemungkinan.
Saat meneliti topik ini, saya tidak dapat menemukan fakta-fakta sulit yang dingin tentang ini; menurut saya, bahwa - kurang lebih - itu akan selalu menjadi "trial and error" pada akhirnya. Tentu saja, node biner untuk setiap nilai input diskrit berarti lebih banyak node lapisan input (dan dengan demikian lebih banyak node lapisan tersembunyi), tetapi apakah itu benar-benar menghasilkan klasifikasi output yang lebih baik daripada memiliki nilai yang sama dalam satu node, dengan fungsi ambang yang pas di lapisan yang tersembunyi?
Apakah Anda setuju bahwa itu hanya "coba dan lihat", atau Anda punya pendapat lain tentang ini?
sumber
Ya ada. Bayangkan tujuan Anda adalah untuk membangun classifier biner. Kemudian Anda memodelkan masalah Anda sebagai memperkirakan distribusi Bernoulli di mana, mengingat vektor fitur, hasilnya menjadi milik salah satu kelas atau sebaliknya. Output dari jaringan saraf seperti itu adalah probabilitas bersyarat. Jika lebih besar dari 0,5 Anda mengaitkannya ke kelas, sebaliknya ke yang lain.
Agar dapat didefinisikan dengan baik, output harus antara 0 dan 1, sehingga Anda memilih label Anda menjadi 0 dan 1, dan meminimalkan entropi silang, mana adalah output dari jaringan Anda, dan adalah nilai target untuk sampel pelatihan Anda. Karenanya, Anda perlu . y ( x ) t t ∈ { 0 , 1 }
sumber
Saya juga menghadapi dilema yang sama ketika saya sedang memecahkan masalah. Saya tidak mencoba kedua arsitektur, tetapi pendapat saya adalah, jika variabel input diskrit maka fungsi output dari jaringan saraf akan memiliki karakteristik fungsi impuls dan jaringan saraf baik untuk memodelkan fungsi impuls. Bahkan setiap fungsi dapat dimodelkan dengan jaringan saraf dengan presisi bervariasi tergantung pada kompleksitas jaringan saraf. Satu-satunya perbedaan adalah, dalam arsitektur pertama, Anda telah meningkatkan jumlah input sehingga Anda lebih banyak jumlah berat pada simpul lapisan tersembunyi pertama untuk memodelkan fungsi impuls tetapi untuk arsitektur kedua Anda membutuhkan lebih banyak jumlah simpul dalam lapisan tersembunyi dibandingkan dengan arsitektur pertama untuk mendapatkan kinerja yang sama.
sumber