Perbedaan intuitif antara model Markov tersembunyi dan bidang acak bersyarat

33

Saya mengerti bahwa HMM (Hidden Markov Models) adalah model generatif, dan CRF adalah model diskriminatif. Saya juga mengerti bagaimana CRF (Conditional Random Fields) dirancang dan digunakan. Apa yang saya tidak mengerti adalah bagaimana mereka berbeda dari HMM? Saya membaca bahwa dalam kasus HMM, kita hanya dapat memodelkan keadaan kita berikutnya pada node sebelumnya, node saat ini, dan probabilitas transisi, tetapi dalam kasus CRF kita dapat melakukan ini dan dapat menghubungkan sejumlah node secara acak untuk membentuk dependensi atau konteks? Apakah saya benar di sini?

pengguna1343318
sumber
1
Pembaca komentar ini mungkin tidak menyukai jawaban ini, tetapi jika Anda benar-benar perlu tahu jawabannya, cara terbaik untuk memahami adalah dengan membaca makalah sendiri dan membentuk pendapat Anda sendiri. Ini membutuhkan banyak waktu, tetapi ini satu-satunya cara untuk benar-benar mengetahui apa yang sedang terjadi dan untuk dapat mengetahui apakah orang lain mengatakan yang sebenarnya kepada Anda
jujur

Jawaban:

23

Dari pengantar McCallum untuk CRF :

masukkan deskripsi gambar di sini

Renaud
sumber
4
maukah Anda menambahkan intuisi / wawasan / pemahaman Anda sendiri pada hal ini - bahkan jika hanya menunjukkan hal-hal penting (dari perspektif Anda)?
javadba
10

"Bidang Acak Bersyarat dapat dipahami sebagai ekstensi berurutan ke Model Entropi Maksimum". Kalimat ini dari laporan teknis yang terkait dengan "Model Probabilitas Klasik dan Bidang Acak Bersyarat".

Ini mungkin merupakan bacaan terbaik untuk topik-topik seperti HMM, CRF dan Maximum Entropy.

PS: Gambar 1 dalam tautan memberikan perbandingan yang sangat baik di antara mereka.

Salam,

miguelmalvarez
sumber
5

Sebagai catatan: Saya dengan hormat meminta Anda untuk mempertahankan daftar ini (tidak lengkap) sehingga pengguna yang tertarik memiliki sumber daya yang mudah diakses. Status quo masih mengharuskan individu untuk menyelidiki banyak makalah dan / atau laporan teknis yang panjang untuk menemukan jawaban yang terkait dengan CRF dan HMM.

Selain yang lain, jawaban yang sudah bagus, saya ingin menunjukkan fitur khas yang saya temukan paling penting:

  • HMM adalah model generatif yang mencoba memodelkan distribusi bersama P (y, x). Oleh karena itu, model-model seperti itu mencoba memodelkan distribusi data P (x) yang pada gilirannya mungkin memberlakukan fitur yang sangat tergantung . Ketergantungan ini kadang-kadang tidak diinginkan (misalnya dalam penandaan POS NLP) dan sangat sulit untuk dimodelkan / dihitung.
  • CRF adalah model diskriminatif yang memodelkan P (y | x). Dengan demikian, mereka tidak perlu secara eksplisit memodelkan P (x) dan tergantung pada tugas, karena itu mungkin menghasilkan kinerja yang lebih tinggi, sebagian karena mereka membutuhkan lebih sedikit parameter yang harus dipelajari, misalnya dalam pengaturan ketika menghasilkan sampel tidak diinginkan . Model diskriminatif sering lebih cocok ketika fitur yang kompleks dan tumpang tindih digunakan (karena pemodelan distribusinya seringkali sulit).
  • Jika Anda memiliki fitur yang tumpang tindih / rumit (seperti pada penandaan POS), Anda mungkin ingin mempertimbangkan CRF karena mereka dapat memodelkan ini dengan fungsi fitur mereka (perlu diingat bahwa Anda biasanya harus merancang fitur-fitur fungsi-fungsi ini).
  • ytxtcSebuahhal(xt-1)= true) sedangkan dalam HMM (orde pertama) Anda menggunakan asumsi Markov, memaksakan ketergantungan hanya ke elemen sebelumnya. Karena itu saya melihat CRF sebagai generalisasi HMM .
  • Perhatikan juga perbedaan antara CRF linier dan umum . CRF linier, seperti HMM, hanya memaksakan dependensi pada elemen sebelumnya sedangkan dengan CRF umum Anda dapat memaksakan dependensi ke elemen arbitrer (mis. Elemen pertama diakses di bagian paling akhir urutan).
  • Dalam praktiknya, Anda akan melihat CRF linier lebih sering daripada CRF umum karena biasanya memungkinkan penyimpulan lebih mudah. Secara umum, inferensi CRF seringkali tidak dapat dilaksanakan, membuat Anda memiliki satu-satunya opsi yang dapat ditebak untuk perkiraan inferensi).
  • Inferensi dalam CRF linier dilakukan dengan algoritma Viterbi seperti pada HMM.
  • Baik HMM dan CRF linier biasanya dilatih dengan teknik Maximum Likelihood seperti gradient descent, metode Quasi-Newton atau untuk HMMs dengan teknik Maksimalisasi Ekspektasi (algoritma Baum-Welch). Jika masalah optimisasi cembung, semua metode ini menghasilkan set parameter optimal.
  • Menurut [1], masalah optimasi untuk mempelajari parameter CRF linier adalah cembung jika semua node memiliki distribusi keluarga eksponensial dan diamati selama pelatihan.

[1] Sutton, Charles; McCallum, Andrew (2010), "Pengantar Bidang Acak Bersyarat"

Fábio
sumber