Bagaimana saya bisa mengubah data deret waktu sehingga saya bisa menggunakan teknik yang lebih sederhana untuk prediksi kesalahan?

8

Saya tahu ini terutama adalah situs statistik, jadi jika saya di luar topik, harap redirect saya.

Saya memiliki sistem dengan pompa yang kadang pecah dan perlu diganti. Saya ingin dapat memprediksi kegagalan, dan dengan demikian memberikan peringatan dini kepada orang-orang yang mengganti pompa. Saya memiliki data historis untuk proses pompa, seperti aliran, tekanan, ketinggian cairan dll.

Saya hanya memiliki sedikit pengalaman dalam menggunakan teknik pembelajaran mesin untuk mengklasifikasikan data - pada dasarnya saya telah mengikuti dan melakukan latihan kursus pembelajaran mesin Andrew Ng di coursera, serta Andrew Conway's Statistics One, - dan saya tidak pernah menggunakan pembelajaran mesin untuk mengklasifikasikan deret waktu. Saya memikirkan cara saya bisa mengubah masalah saya sehingga saya bisa menggunakan pengetahuan saya yang ada di sana. Dengan pengetahuan saya yang terbatas, saya tidak akan mendapatkan prediksi yang sangat optimal, tetapi saya berharap dapat belajar dari ini, dan untuk masalah ini, setiap perbaikan kecil dalam prediksi berguna, dibandingkan hanya menunggu kesalahan terjadi.

Pendekatan yang saya usulkan adalah mengubah deret waktu menjadi masalah klasifikasi normal. Input akan berupa ringkasan dari jendela deret waktu, dengan nilai rata-rata, deviasi standar, nilai maks dll. Untuk setiap jenis data di jendela. Untuk hasilnya, saya tidak yakin apa yang akan bekerja paling baik. Salah satu pendekatan adalah bahwa output akan menjadi klasifikasi biner dari apakah pompa gagal dalam periode waktu tertentu dari ujung jendela atau tidak. Lain adalah bahwa output akan menjadi waktu yang tersisa sebelum pompa gagal, jadi bukan klasifikasi, tetapi regresi (dalam pengertian pembelajaran mesin) sebagai gantinya.

Apakah Anda pikir pendekatan ini cenderung memberikan hasil? Apakah itu pertanyaan "tergantung pada domain dan data historis". Apakah ada transformasi yang lebih baik (baik input maupun output) yang belum saya pertimbangkan, atau prediksi kesalahan berdasarkan data deret waktu sangat berbeda dari prediksi kesalahan standar, sehingga waktu saya akan lebih baik dihabiskan membaca tentang pembelajaran mesin dengan deret waktu ?

Boris
sumber
Pengukuran getaran / kebisingan waktu nyata dari pompa akan menjadi bonus nyata di sini.
image_doctor
@ image_doctor: Saya mungkin bisa mendapatkannya. Apakah maksud Anda itu akan baik, karena getaran / kebisingan relevan dengan domain masalah? Dalam hal itu, tidak bisakah saya meringkasnya seperti data lainnya? Atau apakah itu inheren tentang pemrosesan informasi secara real time? Saya ingin dapat memprediksi kesalahan jauh-jauh hari, seperti sehari atau (lebih disukai) lebih banyak. Saya tidak tahu apakah itu layak dengan domain dan data. Tetapi skala waktu ini tidak menunjukkan kepada saya, bahwa pemrosesan waktu nyata sangat membantu. Jika Anda maksudkan bahwa waktu nyata itu penting, sudahkah saya salah mengerti sesuatu?
Boris
Itu relevan dengan domain masalah. Pompa sering menunjukkan tanda-tanda ketidakseimbangan atau perubahan mode getaran sebelum terjadi kegagalan. Analisis spektral waktu nyata, atau setidaknya sesuatu seperti sampel per jam, harus menjadi fitur yang sangat berguna untuk prediksi kegagalan.
image_doctor
Saya memiliki masalah yang sama dan saat ini saya sedang mengevaluasi potensi menggunakan Model Cox Proportional Hazard. Apakah Anda dapat menggunakan ini dalam solusi Anda? Bisakah Anda berbagi dengan kami solusi akhir yang Anda ambil untuk mencapai hasil?

Jawaban:

5

Anda mungkin ingin melihat analisis survival, yang dengannya Anda dapat memperkirakan fungsi survival (probabilitas bahwa waktu kegagalan lebih besar dari waktu tertentu) dan fungsi bahaya (probabilitas seketika bahwa sebuah unit akan gagal, mengingat itu belum mengalami kegagalan sejauh ini). Dengan sebagian besar pendekatan analisis kelangsungan hidup, Anda dapat memasukkan prediktor yang bervariasi waktu dan waktu.

Ada berbagai pendekatan analisis survival yang berbeda termasuk model bahaya proporsional Cox semi-parametrik (alias regresi Cox) dan model parametrik. Regresi Cox tidak mengharuskan Anda untuk menentukan fungsi dasar bahaya, tetapi Anda mungkin menemukan bahwa Anda memerlukan model parametrik untuk menangkap dengan baik pola kegagalan dalam data Anda. Kadang-kadang model waktu dipercepat kegagalan parametrik sesuai, di mana tingkat kegagalan meningkat dari waktu ke waktu.

Anda dapat mencoba memulai dengan regresi Cox karena ini adalah yang paling sederhana untuk digunakan dan memeriksa seberapa baik Anda dapat memprediksi kegagalan pada set tes penahan. Saya menduga Anda mungkin memiliki hasil yang lebih baik dengan semacam analisis survival yang secara eksplisit memperhitungkan waktu dan penyensoran (pompa yang belum gagal) dibandingkan dengan mencoba mengubahnya menjadi masalah klasifikasi yang tidak berbasis waktu.

Anne Z.
sumber
Saya memiliki masalah yang sama dan saya juga mencoba untuk membingkai bahwa dalam kerangka analisis kelangsungan hidup: Saya pada dasarnya memiliki pabrik yang sama yang terus gagal dan berfungsi lagi setelah pemeliharaan. Saya ingin menentukan kapan dan apakah pabrik akan gagal. Dalam hal ini, bagaimana menggabungkan beberapa pengukuran pada setiap interval waktu karena analisis survival akan memiliki satu baris per kegagalan tetapi saya akan mengumpulkan data berjam-jam sebelum kegagalan.
Disiplin
1

Saya akan mendasarkan keputusan saya pada klasifikasi vs regresi berdasarkan ketersediaan data (yang terakhir membutuhkan mengetahui waktu yang tepat di mana kegagalan terjadi, yang pertama tidak) dan apakah memiliki perkiraan waktu untuk kegagalan benar-benar merupakan persyaratan untuk masalah Anda (default saya adalah mencoba klasifikasi dulu).

Dave
sumber
Terima kasih. Ya, dalam beberapa hal, memperkirakan waktu kegagalan adalah mengambil rute yang lebih panjang ke hasilnya, tetapi menghemat masalah dalam menentukan periode kegagalan mana yang akan diestimasi: Saya tidak tahu apakah data yang mendukung mengklasifikasikan periode kegagalan 10 hari lebih baik daripada periode 5 hari, jadi dengan klasifikasi, saya harus melatih banyak pengklasifikasi dan kemudian menukar memberikan hasil terbaik vs memberikan peringatan tepat waktu. Memperkirakan waktu untuk gagal akan menghindarinya, tetapi estimasi itu sendiri mungkin lebih sulit.
Boris