Apakah ada cara untuk menggunakan regresi logistik untuk mengklasifikasikan data multi-label? Dengan multi-label, maksud saya data yang dapat milik beberapa kategori secara bersamaan.
Saya ingin menggunakan pendekatan ini untuk mengklasifikasikan beberapa data biologis.
classification
logistic
multilabel
pengguna721975
sumber
sumber
Jawaban:
Saya prinsipkan, ya - saya tidak yakin bahwa teknik ini masih disebut regresi logistik.
Sebenarnya pertanyaan Anda dapat merujuk ke dua ekstensi independen ke pengklasifikasi biasa:
Anda dapat meminta jumlah semua keanggotaan untuk setiap kasus menjadi satu ("dunia tertutup" = kasus biasa)
atau melepaskan batasan ini (kadang-kadang disebut "satu-kelas pengklasifikasi")
Ini dapat dilatih oleh beberapa model LR independen meskipun satu kelas masalah sering salah posisi (kelas ini vs semua jenis pengecualian yang bisa terletak di semua arah) dan kemudian LR tidak terlalu cocok.
keanggotaan kelas parsial: setiap kasus menjadi milik keanggotaan∈ [ 0 , 1]nc l a s s e s untuk setiap kelas, mirip dengan keanggotaan dalam analisis cluster fuzzy: [ A = 0 , B = 1 , C= 0 ] . Dalam notasi ini, keanggotaan parsial akan menjadi mis[ A = 0,05 , B = 0,95 , C= 0 ] dll.
Asumsikan ada 3 kelas A, B, C. Kemudian sampel dapat diberi label sebagai milik kelas B. Ini juga dapat ditulis sebagai vektor keanggotaan
interpretasi yang berbeda dapat berlaku, tergantung pada masalahnya (keanggotaan fuzzy atau probabilitas):
untuk prediksi, mis. probabilitas posterior tidak hanya mungkin tetapi sebenarnya cukup umum
dan bahkan validasi
Ide keseluruhan dari hal ini adalah bahwa untuk kasus-kasus batas mungkin tidak mungkin untuk menetapkan mereka secara jelas ke satu kelas.
Dalam R eg
nnet:::multinom
yang merupakan bagian dari MASS tidak menerima data tersebut untuk pelatihan. JST dengan sigmoid logistik dan tanpa lapisan tersembunyi digunakan di belakang layar.Saya mengembangkan paket
softclassval
untuk bagian validasi.Pengklasifikasi satu kelas dijelaskan dengan baik dalam Richard G. Brereton: Chemometrics for Pattern Recognition, Wiley, 2009.
Kami memberikan diskusi yang lebih rinci tentang keanggotaan parsial dalam makalah ini: Claudia Beleites, Kathrin Geiger, Matthias Kirsch, Stephan B Sobottka, Gabriele Schackert & Reiner Salzer: penilaian spektroskopi Raman dari jaringan astrocytoma: menggunakan informasi referensi lembut. Anal Bioanal Chem, 2011, Vol. 400 (9), hlm. 2801-2816
sumber
Salah satu cara mudah untuk melakukan klasifikasi multi-label dengan multi-class classifier (seperti regresi logistik multinomial) adalah dengan menetapkan setiap kemungkinan penugasan label untuk kelasnya sendiri. Misalnya, jika Anda melakukan klasifikasi multi-label biner dan memiliki 3 label, Anda dapat menetapkan
dan seterusnya, menghasilkan23=8 kelas.
Masalah yang paling jelas dengan pendekatan ini adalah Anda dapat berakhir dengan sejumlah besar kelas bahkan dengan jumlah label yang relatif kecil (jika Anda memilikin label yang Anda butuhkan 2n kelas). Anda juga tidak akan dapat memprediksi penetapan label yang tidak ada dalam dataset Anda, dan Anda akan menggunakan data Anda dengan agak buruk, tetapi jika Anda memiliki banyak data, dan cakupan yang baik dari kemungkinan pemberian label tersebut , hal-hal ini mungkin tidak masalah.
Bergerak lebih dari ini dan apa yang disarankan oleh orang lain, Anda mungkin ingin melihat algoritma prediksi terstruktur seperti bidang acak bersyarat.
sumber
Masalah ini juga terkait dengan pembelajaran sensitif biaya di mana memprediksi label untuk sampel dapat dikenakan biaya. Untuk sampel multi-label biaya untuk label tersebut rendah sedangkan biaya untuk label lain lebih tinggi.
Anda dapat melihat tutorial ini yang juga dapat Anda temukan di sini .
sumber