Ini adalah pertanyaan yang cukup umum: anggap saya ingin membangun model untuk memprediksi pengamatan berikutnya berdasarkan sebelumnya pengamatan (dapat menjadi parameter untuk mengoptimalkan secara eksperimental). Jadi pada dasarnya kami memiliki jendela geser fitur input untuk memprediksi pengamatan selanjutnya.
Saya dapat menggunakan pendekatan Model Hidden Markov, yaitu Baum-Welch untuk memperkirakan model, kemudian Viterbi untuk memprediksi kondisi saat ini berdasarkan yang terakhir pengamatan, kemudian prediksi keadaan selanjutnya yang paling mungkin berdasarkan kondisi saat ini, dan kemudian prediksi pengamatan selanjutnya menggunakan keadaan berikutnya yang paling mungkin dan parameter HMM (atau varian seperti temukan distribusi prediksi pengamatan berikutnya).
Atau saya bisa menggunakan pendekatan yang lebih sederhana, menggunakan model stateless (yang bisa mendapatkan input sebelumnya pengamatan), misalnya SVM, regresi linier, splines, pohon regresi, tetangga terdekat, dll. Model semacam itu didasarkan pada meminimalkan beberapa kesalahan prediksi atas perangkat pelatihan dan karenanya, secara konseptual, jauh lebih sederhana daripada model berbasis keadaan tersembunyi.
Bisakah seseorang berbagi pengalamannya dalam berurusan dengan pilihan pemodelan seperti itu? Apa yang akan mendukung HMM dan apa yang mendukung pendekatan regresi? Secara intuitif seseorang harus mengambil model yang lebih sederhana untuk menghindari pemasangan yang berlebihan; ini mendukung pendekatan stateless ... Kita juga harus mempertimbangkan bahwa kedua pendekatan mendapatkan input data yang sama untuk pelatihan (saya pikir ini menyiratkan bahwa jika kita tidak memasukkan pengetahuan domain tambahan dalam pemodelan model keadaan tersembunyi, misalnya memperbaiki keadaan dan probabilitas transisi tertentu, tidak ada alasan mengapa model keadaan tersembunyi harus berkinerja lebih baik). Pada akhirnya seseorang tentu saja dapat bermain dengan kedua pendekatan dan melihat apa yang melakukan lebih baik pada set validasi, tetapi beberapa heuristik berdasarkan pengalaman praktis mungkin juga bermanfaat ...
Catatan: bagi saya penting untuk hanya memprediksi peristiwa tertentu; Saya lebih suka model yang memprediksi beberapa peristiwa "menarik / langka" dengan baik, daripada model yang memprediksi peristiwa "rata-rata / sering" tetapi yang menarik tidak begitu baik. Mungkin ini memiliki implikasi untuk pilihan pemodelan. Terima kasih.
Jawaban:
Singkatnya, saya pikir mereka bekerja dalam paradigma pembelajaran yang berbeda.
Model ruang-ruang (model keadaan tersembunyi) dan model stateless lainnya yang Anda sebutkan akan menemukan hubungan yang mendasari seri waktu Anda dalam paradigma pembelajaran yang berbeda: (1) estimasi kemungkinan maksimum, (2) inferensi Bayes, (3) empiris minimalisasi risiko.
Dalam model ruang-negara,
Membiarkanxt sebagai kondisi tersembunyi, yt sebagai yang bisa diamati, t > 0 (anggap tidak ada kontrol)
Anda menganggap hubungan berikut untuk model:
danyt hanya tergantung pada xt .
Saat Anda menggunakan Baum-Welch untuk memperkirakan parameter, Anda sebenarnya mencari perkiraan kemungkinan maksimum dari HMM. Jika Anda menggunakan filter Kalman, Anda sedang menyelesaikan kasus khusus masalah filter Bayesian (yang sebenarnya merupakan aplikasi teorema Bayes pada langkah pembaruan):
Langkah prediksi:
Perbarui langkah:
Dalam filter Kalman, karena kami menganggap statistik kebisingan adalah Gaussian dan hubunganP(xt|xt - 1) dan P(yt|xt) linear. Karena itu kamu bisa menulisP(xt|y1 : t - 1) dan P(xt|y1 : t) hanya sebagai xt (mean + varians cukup untuk distribusi normal) dan algoritma berfungsi sebagai rumus matriks.
Di sisi lain, untuk model stateless lainnya yang Anda sebutkan, seperti SVM, splines, pohon regresi, tetangga terdekat. Mereka berusaha menemukan hubungan yang mendasarinya( {y0,y1, . . . ,yt - 1} ,yt) oleh minimalisasi risiko empiris.
Untuk estimasi kemungkinan maksimum, Anda perlu menentukan terlebih dahulu distribusi probabilitas yang mendasari (seperti HMM, Anda memiliki matriks transisi, yang dapat diamati adalah(μj,σj) untuk beberapa j )
Untuk penerapan teorema Bayes, Anda harus memiliki "koreksi" aprioriP( A ) pertama dalam arti itu P( A ) ≠ 0 . JikaP( A ) = 0 , maka setiap kesimpulan menghasilkan 0 sejak P( A | B ) =P( B | A ) P( A )P( B ) .
Untuk minimalisasi risiko empiris, konsistensi universal dijamin untuk setiap distribusi probabilitas yang mendasari jika dimensi VC dari aturan pembelajaran tidak tumbuh terlalu cepat karena jumlah data yang tersedian → ∞
sumber