Saya memiliki seri waktu biner: Kami memiliki 2160 data (0 = tidak terjadi, 1 = terjadi) untuk periode satu jam dalam 90 hari.
Saya ingin memperkirakan setelah 90 hari ini, di mana 1 berikutnya akan terjadi, dan juga Perpanjang ketentuan ini untuk satu bulan ke depan.
time-series
binary-data
amin abdolahnejad
sumber
sumber
Jawaban:
Salah satu pendekatan mungkin mengasumsikan bahwa urutan Bernoulli dapat dijelaskan oleh variabel acak Normal laten menggunakan transformasi Probit. Itu adalah kesadaran AndaXt∼ B e r n o u l l i (halt) dimana halt∼Φ- 1(Yt) dan Y∼ N( μ , Σ ) . Dengan cara ini Anda dapat menempatkan struktur deret waktu (misalnya ARIMA) apa pun yang Anda suka diY variabel dan kemudian menggunakan teknik deret waktu standar untuk memprediksi pengamatan di masa depan (misalnya Holt-Winters). Seharusnya dimungkinkan untuk membuat kode seperti ini di Stan atau JAGS, tetapi Anda mungkin tidak mendapatkan prediksi yang bagus mengingat "kaca gelap" melihat proses Bernoulli memberi Anda status laten.
sumber
Model paling sederhana adalah regresi linier. Anda dapat memplot data Anda menggunakan ggplot:
Ini adalah model paling sederhana, ada model non-linear lainnya, yang mungkin lebih cocok dengan data Anda. Juga, ingatlah bahwa Anda mungkin harus menggunakan log tanggal, agar lebih bugar. Pada regresi non-linear seperti regresi polinomial Anda dapat membaca banyak di sini
Sekarang, ini membutuhkan analisis tambahan, tetapi penting untuk memastikan apakah acara Anda independen. Ada kemungkinan, bahwa ada semacam variabel pengganggu yang mungkin tidak Anda pertanggungjawabkan. Anda mungkin ingin melihat regresi linear Bayesian (mengingat Anda memperoleh lebih banyak dimensi daripada hanya waktu dan nilai ya / tidak) di sini
sumber
Data kecelakaan? Saya akan mulai dengan mengasumsikan ada musiman musiman dan musiman harian. Tanpa mengetahui jenis kecelakaannya, mungkin Anda dapat melihat pengumpulan setiap jam Senin hingga Jumat, dan menangani setiap jam untuk hari Sabtu dan Minggu secara terpisah, sehingga Anda memiliki 3 kumpulan jam, 24 (Senin-Jumat), 24 (Sabtu) dan 24 (Matahari).
Pengurangan data lebih lanjut mungkin dilakukan, tetapi dengan asumsi tidak, ambil saja rata-rata. Misalnya, rata-rata untuk hari Minggu jam 3 sore mungkin 0,3 (kemungkinan 30% kecelakaan). Rata-rata untuk 4 sore mungkin 0,2, dan seterusnya.
Probabilitas tidak ada kecelakaan yang terjadi pada jam 3 sore atau 4 sore adalah (1-.3) (1-.2) = .56, sehingga probabilitas mengalami kecelakaan dalam dua jam ini adalah 0,44, dan seterusnya.
Ini sepertinya tempat yang bagus dan sederhana untuk memulai.
sumber