Saya tahu bahwa model statistik tradisional seperti regresi Cox Proportional Hazards & beberapa model Kaplan-Meier dapat digunakan untuk memprediksi hari sampai kejadian berikutnya dari suatu peristiwa katakanlah kegagalan dll. Yaitu analisis survival
Pertanyaan
- Bagaimana versi regresi model pembelajaran mesin seperti GBM, jaringan saraf dll dapat digunakan untuk memprediksi hari sampai terjadinya suatu peristiwa?
- Saya percaya hanya menggunakan hari sampai kejadian sebagai variabel target dan menyederhanakan menjalankan model regresi tidak akan berhasil? Mengapa itu tidak bekerja & bagaimana bisa diperbaiki?
- Bisakah kita mengubah masalah analisis survival menjadi klasifikasi dan kemudian memperoleh probabilitas survival? Jika demikian bagaimana cara membuat variabel target biner?
- Apa pro & kontra dari pendekatan pembelajaran mesin vs regresi Cox Proportional Hazards & model Kaplan-Meier dll?
Bayangkan sampel data input dalam format di bawah ini
catatan:
- Sensor ping data pada interval 10 menit tetapi kadang-kadang data dapat hilang karena masalah jaringan dll sebagaimana diwakili oleh baris dengan NA.
- var1, var2, var3 adalah prediktor, variabel penjelas.
- failure_flag memberi tahu apakah mesin gagal atau tidak.
- Kami memiliki data 6 bulan terakhir pada setiap interval 10 menit untuk setiap id mesin
EDIT:
Prediksi output yang diharapkan harus dalam format di bawah ini
Catatan: Saya ingin memprediksi kemungkinan kegagalan untuk masing-masing mesin selama 30 hari ke depan pada tingkat harian.
machine-learning
classification
survival
cox-model
kaplan-meier
GeorgeOfTheRF
sumber
sumber
failure_flag
.Jawaban:
Untuk kasus jaringan saraf, ini adalah pendekatan yang menjanjikan: WTTE-RNN - Prediksi churn yang lebih sedikit .
Inti dari metode ini adalah menggunakan Jaringan Syaraf Berulang untuk memprediksi parameter dari distribusi Weibull pada setiap langkah waktu dan mengoptimalkan jaringan menggunakan fungsi kehilangan yang memperhitungkan sensor.
Penulis juga merilis implementasinya di Github .
sumber
Lihatlah referensi ini:
https://www.stats.ox.ac.uk/pub/bdr/NNSM.pdf
http://pcwww.liv.ac.uk/~afgt/eleuteri_lyon07.pdf
Juga perhatikan bahwa model berbasis bahaya tradisional seperti Cox Proportional Hazards (CPH) tidak dirancang untuk memprediksi waktu-ke-peristiwa, tetapi untuk menyimpulkan dampak variabel (korelasi) terhadap i) pengamatan peristiwa dan, karenanya ii) kurva kelangsungan hidup . Mengapa? Lihatlah MLE CPH.
Oleh karena itu, jika Anda ingin lebih langsung memprediksi sesuatu seperti "hari sampai kejadian", CPH mungkin tidak disarankan; model lain mungkin lebih baik melayani tugas Anda seperti disebutkan dalam dua referensi di atas.
sumber
Seperti @dsaxton katakan, Anda dapat membangun model waktu diskrit. Anda mengaturnya untuk memprediksi p (gagal pada hari ini diberikan bertahan hingga hari sebelumnya). Input Anda adalah hari ini (dalam representasi apa pun yang Anda inginkan) misalnya satu penyandian panas, integer, .. Spline ... Serta variabel independen lainnya yang mungkin Anda inginkan
Jadi Anda membuat baris data, untuk setiap sampel yang bertahan sampai waktu t-1, apakah itu mati pada waktu t (0/1).
Jadi sekarang probabilitas untuk bertahan hingga waktu T adalah produk p (jangan mati pada waktu t diberikan tidak mati pada t-1) untuk t = 1 hingga T. Yaitu Anda membuat prediksi T dari model Anda dan kemudian berkembang biak bersama.
Saya akan mengatakan alasannya bukan ide untuk secara langsung memprediksi waktu untuk kegagalan adalah karena struktur masalah yang tersembunyi. Misalnya apa yang Anda input untuk mesin yang tidak gagal. Struktur yang mendasarinya secara efektif adalah peristiwa independen: gagal pada waktu t diberikan tidak gagal hingga t-1. Jadi misal jika Anda menganggapnya konstan, maka kurva survival Anda menjadi eksponensial (lihat model bahaya)
Perhatikan jika Anda dapat memodelkan pada interval 10 menit atau mengumpulkan masalah klasifikasi hingga tingkat hari ..
sumber