Pembelajaran terawasi dengan data tidak pasti?

11

Apakah ada metodologi yang ada untuk menerapkan model pembelajaran yang diawasi ke dataset yang tidak pasti? Misalnya, kita memiliki dataset dengan kelas A dan B:

+----------+----------+-------+-----------+
| FeatureA | FeatureB | Label | Certainty |
+----------+----------+-------+-----------+
|        2 |        3 | A     | 50%       |
|        3 |        1 | B     | 80%       |
|        1 |        1 | A     | 100%      |
+----------+----------+-------+-----------+

Bagaimana kita bisa melatih model pembelajaran mesin tentang ini? Terima kasih.

hyperdo
sumber

Jawaban:

11

Sebagai kualitas numerik yang Anda berikan pada data Anda, saya pikir "kepastian" ini pasti dapat digunakan sebagai bobot. Skor "kepastian" yang lebih tinggi meningkatkan bobot datum pada fungsi keputusan, yang masuk akal.

Banyak algoritma pembelajaran yang diawasi mendukung bobot, jadi Anda hanya perlu menemukan versi berbobot dari yang ingin Anda gunakan.

Pembakar
sumber
2
(+1) Dan karena pada dasarnya bobot akan cenderung bertindak sebagai "ulangan" poin, mungkin algoritma apa pun dapat dimasukkan ke dalam versi berbobot seperti itu, misalnya dalam contoh OP, masukkan [5,8,10] salinan 3 poin, yang mencerminkan kepastian mereka [50,80.100]%. (Ini seharusnya tidak pernah benar-benar diperlukan, seolah-olah itu bisa dilakukan pada prinsipnya, harus ada versi algoritma yang berbobot yang sesuai.)
GeoMatt22
5

Alih-alih memiliki label A atau B, Anda dapat menggantinya dengan nilai terus menerus dari kepastian - misalnya, berkorespondensi dengan sesuatu yang Anda yakini adalah , berkorespondensi dengan sesuatu yang Anda yakini adalah dan berkorespondensi dengan sesuatu yang Anda yakini. 'kembali 40% pasti adalah . Kemudian, miliki model yang alih-alih memprediksi kelas atau menghasilkan skor antara dan berdasarkan pada seberapa banyak Anda berpikir satu atau yang lain (dan ambangkan skor ini berdasarkan apakah> atau <1/2). Ini mengubah masalah klasifikasi Anda menjadi masalah regresi (yang Anda ambangkan untuk kembali ke pengklasifikasi).1A0B0.6AAB01

Misalnya, Anda dapat memasukkan model linier ke sebagai (di mana adalah kepastian di atas). Kemudian, ketika Anda ingin menguji beberapa data, hubungkan ke model, dan output label jika dan sebaliknya.logp(A|x)p(B|x)=logp(A|x)1P(A|x)β0+β1Txp(A|x)Aβ0+β1Tx>0B

Batman
sumber
Jadi jika Anda memiliki masalah klasifikasi multi-kelas, Anda dapat menetapkan target Anda sebagai vektor dengan panjang yang sama dengan jumlah kelas?
hyperdo
Jumlah kelas -1, dengan asumsi jumlah kepastian menjadi 100%; contohnya mirip dengan regresi logistik. Banyak pengklasifikasi menghasilkan skor (mis. Estimasi p (class | data) dalam beberapa model). Semua jawaban ini mengusulkan bahwa alih-alih memprediksi kelas secara langsung, lihat kepastian sebagai skor, dan prediksi itu. Lalu, lakukan sesuatu dengan skor.
Batman