Model keadaan tersembunyi vs model tanpa negara untuk regresi deret waktu

8

Ini adalah pertanyaan yang cukup umum: anggap saya ingin membangun model untuk memprediksi pengamatan berikutnya berdasarkan sebelumnya N pengamatan (Ndapat menjadi parameter untuk mengoptimalkan secara eksperimental). Jadi pada dasarnya kami memiliki jendela geser fitur input untuk memprediksi pengamatan selanjutnya.

Saya dapat menggunakan pendekatan Model Hidden Markov, yaitu Baum-Welch untuk memperkirakan model, kemudian Viterbi untuk memprediksi kondisi saat ini berdasarkan yang terakhir N pengamatan, kemudian prediksi keadaan selanjutnya yang paling mungkin berdasarkan kondisi saat ini, dan kemudian prediksi pengamatan selanjutnya menggunakan keadaan berikutnya yang paling mungkin dan parameter HMM (atau varian seperti temukan distribusi prediksi pengamatan berikutnya).

Atau saya bisa menggunakan pendekatan yang lebih sederhana, menggunakan model stateless (yang bisa mendapatkan input sebelumnyaN pengamatan), misalnya SVM, regresi linier, splines, pohon regresi, tetangga terdekat, dll. Model semacam itu didasarkan pada meminimalkan beberapa kesalahan prediksi atas perangkat pelatihan dan karenanya, secara konseptual, jauh lebih sederhana daripada model berbasis keadaan tersembunyi.

Bisakah seseorang berbagi pengalamannya dalam berurusan dengan pilihan pemodelan seperti itu? Apa yang akan mendukung HMM dan apa yang mendukung pendekatan regresi? Secara intuitif seseorang harus mengambil model yang lebih sederhana untuk menghindari pemasangan yang berlebihan; ini mendukung pendekatan stateless ... Kita juga harus mempertimbangkan bahwa kedua pendekatan mendapatkan input data yang sama untuk pelatihan (saya pikir ini menyiratkan bahwa jika kita tidak memasukkan pengetahuan domain tambahan dalam pemodelan model keadaan tersembunyi, misalnya memperbaiki keadaan dan probabilitas transisi tertentu, tidak ada alasan mengapa model keadaan tersembunyi harus berkinerja lebih baik). Pada akhirnya seseorang tentu saja dapat bermain dengan kedua pendekatan dan melihat apa yang melakukan lebih baik pada set validasi, tetapi beberapa heuristik berdasarkan pengalaman praktis mungkin juga bermanfaat ...

Catatan: bagi saya penting untuk hanya memprediksi peristiwa tertentu; Saya lebih suka model yang memprediksi beberapa peristiwa "menarik / langka" dengan baik, daripada model yang memprediksi peristiwa "rata-rata / sering" tetapi yang menarik tidak begitu baik. Mungkin ini memiliki implikasi untuk pilihan pemodelan. Terima kasih.

Mannaggia
sumber
Bisakah Anda mengklarifikasi mengapa Anda yakin model regresi tidak memiliki kewarganegaraan ? Model regresi linier dinamis (di mana nilai-nilai sebelumnya dari prediksi dan dimasukkan di sisi kanan dari persamaan model) akan tampak sangat dikondisikan oleh negara . Tapi mungkin saya kehilangan sesuatu.
Alexis
terima kasih sudah membaca pertanyaan. Saya akan mengatakan itu sedikit pertanyaan tentang semantik, saya juga memberikan contoh model regresi yang mencakup nilai observasi n-past di sisi kanan model, model seperti itu tentu saja dinamis. Namun, saya lebih mengacu pada konsep variabel tersembunyi / laten yang biasanya teknik EM digunakan untuk menemukan model vs model yang kita tidak memiliki keadaan tersembunyi seperti itu (yaitu negara dapat diamati, mereka adalah pengamatan). Dari perspektif praktis dan pragmatis, apakah mungkin untuk mengatakan mana yang lebih baik dan kapan?
Mannaggia
Saya melewatkan fakta bahwa Anda merujuk pada nilai prediksi masa lalu sebagai input. Apakah model seperti itu setara dengan model keadaan tersembunyi (pada prinsipnya mereka hanya mencakup lebih dari pengamatan N, menggantikan persamaan untuk prediksi masa lalu)? pertanyaan lebih pada apakah kita mengamati negara dan memodelkannya atau jika kita menyimpulkan negara dengan asumsi model tersebut. Namun saya lebih tertarik pada aspek praktis, bukan aspek matematis. Yaitu apakah mungkin untuk mengatakan dalam kondisi apa pendekatan yang satu atau yang lain bekerja lebih baik? (Saya pikir tidak ada teorema yang dapat memberikan jawaban untuk pertanyaan ini)
Mannaggia
1
Mungkin pertanyaan sebelumnya ini adalah setengah dari pertanyaan yang disajikan di sini.
Meadowlark Bradsher

Jawaban:

1

Singkatnya, saya pikir mereka bekerja dalam paradigma pembelajaran yang berbeda.

Model ruang-ruang (model keadaan tersembunyi) dan model stateless lainnya yang Anda sebutkan akan menemukan hubungan yang mendasari seri waktu Anda dalam paradigma pembelajaran yang berbeda: (1) estimasi kemungkinan maksimum, (2) inferensi Bayes, (3) empiris minimalisasi risiko.

Dalam model ruang-negara,

Membiarkan xt sebagai kondisi tersembunyi, yt sebagai yang bisa diamati, t>0 (anggap tidak ada kontrol)

Anda menganggap hubungan berikut untuk model:

P(x0) sebagai prior

P(xt|xt-1) untuk t1 bagaimana keadaan Anda berubah (dalam HMM, ini adalah matriks transisi)

P(yt|xt) untuk t1 seperti yang Anda amati (dalam HMM, bisa jadi distribusi normal yang dikondisikan xt)

dan yt hanya tergantung pada xt.

Saat Anda menggunakan Baum-Welch untuk memperkirakan parameter, Anda sebenarnya mencari perkiraan kemungkinan maksimum dari HMM. Jika Anda menggunakan filter Kalman, Anda sedang menyelesaikan kasus khusus masalah filter Bayesian (yang sebenarnya merupakan aplikasi teorema Bayes pada langkah pembaruan):

Langkah prediksi:

P(xt|y1:t-1)=P(xt|xt-1)P(xt-1|y1:t-1)dxt-1

Perbarui langkah:

P(xt|y1:t)=P(yt|xt)P(xt|y1:t-1)P(yt|xt)P(xt|y1:t-1)dxt

Dalam filter Kalman, karena kami menganggap statistik kebisingan adalah Gaussian dan hubungan P(xt|xt-1) dan P(yt|xt)linear. Karena itu kamu bisa menulisP(xt|y1:t-1) dan P(xt|y1:t) hanya sebagai xt (mean + varians cukup untuk distribusi normal) dan algoritma berfungsi sebagai rumus matriks.

Di sisi lain, untuk model stateless lainnya yang Anda sebutkan, seperti SVM, splines, pohon regresi, tetangga terdekat. Mereka berusaha menemukan hubungan yang mendasarinya({y0,y1,...,yt-1},yt) oleh minimalisasi risiko empiris.

Untuk estimasi kemungkinan maksimum, Anda perlu menentukan terlebih dahulu distribusi probabilitas yang mendasari (seperti HMM, Anda memiliki matriks transisi, yang dapat diamati adalah (μj,σj) untuk beberapa j)

Untuk penerapan teorema Bayes, Anda harus memiliki "koreksi" apriori P(SEBUAH) pertama dalam arti itu P(SEBUAH)0. JikaP(SEBUAH)=0, maka setiap kesimpulan menghasilkan 0 sejak P(SEBUAH|B)=P(B|SEBUAH)P(SEBUAH)P(B).

Untuk minimalisasi risiko empiris, konsistensi universal dijamin untuk setiap distribusi probabilitas yang mendasari jika dimensi VC dari aturan pembelajaran tidak tumbuh terlalu cepat karena jumlah data yang tersedia n

wonghang
sumber