Misalkan saya ingin mempelajari classifier yang mengambil vektor angka sebagai input, dan memberikan label kelas sebagai output. Data pelatihan saya terdiri dari sejumlah besar pasangan input-output.
Namun, ketika saya datang untuk menguji beberapa data baru, data ini biasanya hanya sebagian yang lengkap. Misalnya jika vektor input panjangnya 100, hanya 30 elemen yang dapat diberi nilai, dan sisanya "tidak diketahui".
Sebagai contohnya, pertimbangkan pengenalan gambar di mana diketahui bahwa bagian dari gambar tersumbat. Atau pertimbangkan klasifikasi dalam pengertian umum di mana diketahui bahwa sebagian data rusak. Dalam semua kasus, saya tahu persis elemen mana dalam vektor data yang merupakan bagian yang tidak diketahui.
Saya bertanya-tanya bagaimana saya bisa belajar classifier yang akan bekerja untuk data seperti ini? Saya hanya bisa mengatur elemen "tidak dikenal" ke angka acak, tetapi mengingat bahwa seringkali ada lebih banyak elemen yang tidak diketahui daripada yang diketahui, ini tidak terdengar seperti solusi yang baik. Atau, saya bisa secara acak mengubah elemen dalam data pelatihan menjadi "tidak diketahui", dan berlatih dengan ini daripada data lengkap, tetapi ini mungkin memerlukan pengambilan sampel lengkap dari semua kombinasi elemen yang diketahui dan tidak diketahui.
Secara khusus saya berpikir tentang jaringan saraf, tetapi saya terbuka untuk pengklasifikasi lain.
Ada ide? Terima kasih!
sumber
Jawaban:
Saya pikir ada cara yang masuk akal untuk membuatnya bekerja dengan Neural Networks.
Saya belum pernah melihat itu dilakukan sebelumnya tetapi ini akan sangat mirip dengan melakukan Dropout (metode regularisasi terkenal di Neural Networks) di neuron input Anda, bukan neuron yang tersembunyi. Saya tidak berpikir itu ide yang baik untuk melakukannya secara umum, tetapi jika Anda dipaksa (seperti kasus Anda), setidaknya itu cukup dekat secara teoritis dengan sesuatu yang diketahui bekerja.
sumber
Saya pikir ada beberapa pilihan yang berfungsi dengan pengklasifikasi:
Selain itu Anda bisa menggunakan pengklasifikasi berbasis pohon (misalnya hutan acak) dan jika pohon perlu mengevaluasi pemisahan pada fitur yang hilang, itu bisa saja meneruskan data ke kedua node anak.
sumber