Apakah ada metodologi yang ada untuk menerapkan model pembelajaran yang diawasi ke dataset yang tidak pasti? Misalnya, kita memiliki dataset dengan kelas A dan B:
+----------+----------+-------+-----------+
| FeatureA | FeatureB | Label | Certainty |
+----------+----------+-------+-----------+
| 2 | 3 | A | 50% |
| 3 | 1 | B | 80% |
| 1 | 1 | A | 100% |
+----------+----------+-------+-----------+
Bagaimana kita bisa melatih model pembelajaran mesin tentang ini? Terima kasih.
Alih-alih memiliki label A atau B, Anda dapat menggantinya dengan nilai terus menerus dari kepastian - misalnya, berkorespondensi dengan sesuatu yang Anda yakini adalah , berkorespondensi dengan sesuatu yang Anda yakini adalah dan berkorespondensi dengan sesuatu yang Anda yakini. 'kembali 40% pasti adalah . Kemudian, miliki model yang alih-alih memprediksi kelas atau menghasilkan skor antara dan berdasarkan pada seberapa banyak Anda berpikir satu atau yang lain (dan ambangkan skor ini berdasarkan apakah> atau <1/2). Ini mengubah masalah klasifikasi Anda menjadi masalah regresi (yang Anda ambangkan untuk kembali ke pengklasifikasi).1 A 0 B 0.6 A A B 0 1
Misalnya, Anda dapat memasukkan model linier ke sebagai (di mana adalah kepastian di atas). Kemudian, ketika Anda ingin menguji beberapa data, hubungkan ke model, dan output label jika dan sebaliknya.logp(A|x)p(B|x)=logp(A|x)1−P(A|x) β0+βT1x p(A|x) A β0+βT1x>0 B
sumber