Saya pikir salah satu asumsi dasar pembelajaran mesin atau estimasi parameter adalah bahwa data yang tak terlihat berasal dari distribusi yang sama dengan set pelatihan. Namun, dalam beberapa kasus praktis, distribusi set tes akan hampir berbeda dari set pelatihan.
Katakanlah untuk masalah multi-klasifikasi skala besar yang mencoba untuk mengklasifikasikan deskripsi produk menjadi sekitar 17.000 kelas. Set pelatihan akan memiliki nilai kelas yang sangat miring, sehingga beberapa kelas mungkin memiliki banyak contoh pelatihan, tetapi beberapa mungkin hanya memiliki sedikit. Misalkan kita diberi set uji dengan label kelas yang tidak diketahui dari klien. Kami mencoba untuk mengklasifikasikan setiap produk dalam set tes ke dalam salah satu dari 17.000 kelas, menggunakan classifier yang dilatih pada set pelatihan. Set tes mungkin akan memiliki distribusi kelas yang miring, tetapi mungkin sangat berbeda dari set pelatihan, karena mereka mungkin terkait dengan area bisnis yang berbeda. Jika dua distribusi kelas sangat berbeda, classifier terlatih mungkin tidak berfungsi dengan baik di set tes. Ini tampaknya sangat jelas dengan classifier Naif Bayes.
Apakah ada cara berprinsip untuk menangani perbedaan antara set pelatihan dan set tes tertentu yang diberikan untuk pengklasifikasi probabilistik? Saya mendengar bahwa "transductive SVM" melakukan hal serupa di SVM. Adakah teknik serupa untuk mempelajari classifier yang berkinerja terbaik pada set tes tertentu? Kemudian kita bisa melatih ulang classifier untuk set tes yang diberikan berbeda, seperti yang diizinkan dalam skenario praktis ini.
Saya menemukan tutorial yang sangat baik tentang adaptasi domain yang dapat membantu menjelaskan hal ini secara lebih rinci: http://sifaka.cs.uiuc.edu/jiang4/domain_adaptation/survey/da_survey.html Salah satu solusi yang belum disebutkan di sini didasarkan pada pada ADABOOST. Berikut ini tautan ke artikel aslinya: http://ftp.cse.ust.hk/~qyang/Docs/2007/tradaboost.pdf Ide dasarnya adalah menggunakan beberapa data uji baru untuk memperbarui pembelajaran dari data kereta. Artikel ini adalah ujung gunung es tentang transfer belajar - di mana Anda mengambil apa yang Anda ketahui dari satu tugas dan menerapkannya ke yang lain.
sumber