Saya tahu ini terutama adalah situs statistik, jadi jika saya di luar topik, harap redirect saya.
Saya memiliki sistem dengan pompa yang kadang pecah dan perlu diganti. Saya ingin dapat memprediksi kegagalan, dan dengan demikian memberikan peringatan dini kepada orang-orang yang mengganti pompa. Saya memiliki data historis untuk proses pompa, seperti aliran, tekanan, ketinggian cairan dll.
Saya hanya memiliki sedikit pengalaman dalam menggunakan teknik pembelajaran mesin untuk mengklasifikasikan data - pada dasarnya saya telah mengikuti dan melakukan latihan kursus pembelajaran mesin Andrew Ng di coursera, serta Andrew Conway's Statistics One, - dan saya tidak pernah menggunakan pembelajaran mesin untuk mengklasifikasikan deret waktu. Saya memikirkan cara saya bisa mengubah masalah saya sehingga saya bisa menggunakan pengetahuan saya yang ada di sana. Dengan pengetahuan saya yang terbatas, saya tidak akan mendapatkan prediksi yang sangat optimal, tetapi saya berharap dapat belajar dari ini, dan untuk masalah ini, setiap perbaikan kecil dalam prediksi berguna, dibandingkan hanya menunggu kesalahan terjadi.
Pendekatan yang saya usulkan adalah mengubah deret waktu menjadi masalah klasifikasi normal. Input akan berupa ringkasan dari jendela deret waktu, dengan nilai rata-rata, deviasi standar, nilai maks dll. Untuk setiap jenis data di jendela. Untuk hasilnya, saya tidak yakin apa yang akan bekerja paling baik. Salah satu pendekatan adalah bahwa output akan menjadi klasifikasi biner dari apakah pompa gagal dalam periode waktu tertentu dari ujung jendela atau tidak. Lain adalah bahwa output akan menjadi waktu yang tersisa sebelum pompa gagal, jadi bukan klasifikasi, tetapi regresi (dalam pengertian pembelajaran mesin) sebagai gantinya.
Apakah Anda pikir pendekatan ini cenderung memberikan hasil? Apakah itu pertanyaan "tergantung pada domain dan data historis". Apakah ada transformasi yang lebih baik (baik input maupun output) yang belum saya pertimbangkan, atau prediksi kesalahan berdasarkan data deret waktu sangat berbeda dari prediksi kesalahan standar, sehingga waktu saya akan lebih baik dihabiskan membaca tentang pembelajaran mesin dengan deret waktu ?
Jawaban:
Anda mungkin ingin melihat analisis survival, yang dengannya Anda dapat memperkirakan fungsi survival (probabilitas bahwa waktu kegagalan lebih besar dari waktu tertentu) dan fungsi bahaya (probabilitas seketika bahwa sebuah unit akan gagal, mengingat itu belum mengalami kegagalan sejauh ini). Dengan sebagian besar pendekatan analisis kelangsungan hidup, Anda dapat memasukkan prediktor yang bervariasi waktu dan waktu.
Ada berbagai pendekatan analisis survival yang berbeda termasuk model bahaya proporsional Cox semi-parametrik (alias regresi Cox) dan model parametrik. Regresi Cox tidak mengharuskan Anda untuk menentukan fungsi dasar bahaya, tetapi Anda mungkin menemukan bahwa Anda memerlukan model parametrik untuk menangkap dengan baik pola kegagalan dalam data Anda. Kadang-kadang model waktu dipercepat kegagalan parametrik sesuai, di mana tingkat kegagalan meningkat dari waktu ke waktu.
Anda dapat mencoba memulai dengan regresi Cox karena ini adalah yang paling sederhana untuk digunakan dan memeriksa seberapa baik Anda dapat memprediksi kegagalan pada set tes penahan. Saya menduga Anda mungkin memiliki hasil yang lebih baik dengan semacam analisis survival yang secara eksplisit memperhitungkan waktu dan penyensoran (pompa yang belum gagal) dibandingkan dengan mencoba mengubahnya menjadi masalah klasifikasi yang tidak berbasis waktu.
sumber
Saya akan mendasarkan keputusan saya pada klasifikasi vs regresi berdasarkan ketersediaan data (yang terakhir membutuhkan mengetahui waktu yang tepat di mana kegagalan terjadi, yang pertama tidak) dan apakah memiliki perkiraan waktu untuk kegagalan benar-benar merupakan persyaratan untuk masalah Anda (default saya adalah mencoba klasifikasi dulu).
sumber