Menggunakan Vowpal Wabbit untuk NER

9

Vowpal Wabbit (VW) tampaknya mendukung fungsi penandaan urutan melalui SEARN . Masalahnya adalah saya tidak dapat menemukan daftar parameter mana pun yang terperinci dengan penjelasan dan dengan beberapa contoh. Yang terbaik yang bisa saya temukan adalah entri blog Zinkov dengan contoh yang sangat singkat. The halaman wiki utama hampir tidak menyebutkan SEARN.

Dalam kode sumber yang diperiksa saya menemukan folder demo dengan beberapa data sampel NER. Sayangnya, skrip yang menjalankan semua tes tidak menunjukkan cara menjalankan data ini. Setidaknya itu cukup informatif untuk melihat apa format yang diharapkan: hampir sama dengan format data VW standar, kecuali bahwa entri dipisahkan oleh garis kosong (ini penting).

Pemahaman saya saat ini adalah menjalankan perintah berikut:

cat train.txt | vw -c --passes 10 --searn 25 --searn_task sequence \
--searn_passes_per_policy 2 -b 30 -f twpos.vw

dimana

--searn 25 - jumlah total label NER (?)

--searn_task sequence - tugas pemberian tag urutan (?)

--searn_passes_per_policy 2 - tidak jelas apa fungsinya

Parameter lain standar untuk VW dan tidak perlu penjelasan tambahan. Mungkin ada lebih banyak parameter khusus untuk SEARN? Apa kepentingan dan dampaknya? Bagaimana cara menyetelnya? Ada aturan praktis?

Petunjuk apa saja untuk contoh akan dihargai.

Vladislavs Dovgalecs
sumber

Jawaban: