Saya membaca kertas pendeteksian changepoint online Bayesian oleh Adams dan MacKay ( tautan ).
Penulis mulai dengan menulis distribusi prediksi marjinal: mana
- t adalah pengamatan pada waktu ;
- t menunjukkan set pengamatan sampai waktu ;
- adalah runlength saat ini (waktu sejak titik perubahan terakhir, bisa 0); dan
- r t adalah himpunan pengamatan yang terkait dengan run .
Eq. 1 secara resmi benar (lihat jawaban di bawah oleh @JuhoKokkala), tetapi pemahaman saya adalah bahwa jika Anda ingin benar-benar membuat prediksi tentang Anda harus mengembangkannya sebagai berikut:
Alasan saya adalah bahwa mungkin ada changepoint pada (masa depan) waktu , tetapi posterior hanya mencakup sampai .P ( r t | x 1 : t ) t
Intinya adalah, penulis dalam makalah ini membuat kita dari Persamaan. 1 sebagaimana adanya (lihat Persamaan. 3 dan 11 di koran), dan bukan 1b. Jadi, mereka tampaknya mengabaikan kemungkinan titik perubahan pada waktu saat memprediksi dari data yang tersedia pada waktu . Pada awal Bagian 2 mereka mengatakan en passantx t + 1 t
Kami berasumsi bahwa kami dapat menghitung distribusi prediktif [untuk ] bersyarat pada panjang run yang diberikan . r t
yang barangkali di mana masalahnya. Tetapi secara umum, distribusi prediktif ini akan terlihat seperti Persamaan. 1b; yang bukan apa yang mereka lakukan (Persamaan. 11).
Jadi, saya tidak yakin saya mengerti apa yang sedang terjadi. Mungkin ada sesuatu yang lucu terjadi dengan notasi.
Referensi
- Adams, RP, & MacKay, DJ (2007). Deteksi changepoint online Bayesian. arXiv preprint arXiv: 0710.3742.
sumber
Jawaban:
Keduanya (1) dan (1b) benar. OP benar bahwa (dalam model ini) mungkin ada changepoint pada , dan tergantung pada apakah ada changepoint. Ini tidak menyiratkan masalah dengan (1) karena nilai yang mungkin dari sepenuhnya "ditutupi" oleh . berarti distribusi bersyarat dari bersyarat pada . Distribusi bersyarat ini rata-rata di atas "segalanya", termasuk , bersyarat pada . Sama seperti orang dapat menulis, katakanlah,t+1 xt+1 rt+1 P(xt+1∣rt,x1:t) P(xt+1|rt,x1:t) xt+1 (rt,x1:t) rt+1 (rt,x1:t) P(xt+1000|xt) , yang akan memperhitungkan semua kemungkinan konfigurasi changepoint serta nilai yang terjadi antara dan .xi t t+1000
Dalam sisanya, saya pertama kali menurunkan (1) dan kemudian (1b) berdasarkan pada (1).
Derivasi (1)
Untuk variabel acak , kita memiliki selama adalah diskrit (kalau tidak jumlahnya perlu diganti dengan integral). Menerapkan ini ke :A,B,C
Penurunan dari (1b)
Mari kita pertimbangkan dekomposisi atas nilai yang mungkin dari :P(xt+1∣rt,x(r)t) rt+1
Karena diasumsikan * bahwa apakah suatu changepoint terjadi pada (antara dan ) tidak bergantung pada sejarah , kita memiliki . Lebih lanjut, karena menentukan apakah termasuk dalam run yang sama dengan , kita memiliki . Mengganti dua penyederhanaan ini menjadi faktorisasi di atas, kita mendapatkant+1 xt xt+1 x P(rt+1∣rt,x(r)t)=P(rt+1∣rt) rt+1 xt+1 xt P(xt+1∣rt+1,rt,x(r)t)=P(xt+1∣rt+1,x(r)t)
* Komentar tentang asumsi independensi bersyarat model
Berdasarkan penelusuran cepat pada kertas, saya pribadi ingin properti independensi bersyarat untuk lebih eksplisit dinyatakan di suatu tempat, tapi saya kira maksudnya adalah bahwa adalah Markovian dan : s terkait dengan berbagai berjalan independen (diberikan berjalan).xr x
sumber