Bagaimana saya bisa menemukan korelasi antara crash dan lingkungan sistem?

10

Di waktu senggang saya, saya sedang mengerjakan sistem berbasis web kecil yang mengumpulkan laporan kerusakan (tetapi bukan yang lain, laporan bug yang tidak mogok) yang dikirim dari aplikasi Delphi Windows.

Untuk pemecahan masalah, pengguna akan senang memiliki fitur penambangan data untuk menemukan hubungan antara perangkat keras atau versi sistem operasi dan bug dan / atau kerusakan spesifik.

Sebagai contoh bagaimana ini seharusnya bekerja:

  • untuk setiap kerusakan ada laporan dalam database, yang memiliki kode sidik jari / hash dari jejak tumpukan (panggilan tumpukan) pada saat kecelakaan untuk mengidentifikasi duplikat
  • algoritme memeriksa apakah semua duplikat dari laporan bug juga memiliki beberapa atribut umum lainnya, misalnya paket layanan yang hilang dari sistem operasi
  • hasil analisis mencantumkan semua properti yang memiliki laporan bug yang sama

Mari kita asumsikan laporan bug otomatis ini mengandung semua informasi utama seperti nama semua proses yang sedang berjalan, nama file, informasi versi DLL yang dimuat, dll.

Bagaimana saya bisa menemukan korelasi antara tabrakan berulang dan lingkungan? Apakah ada algoritma atau metode statistik tertentu yang akan membantu?


sumber
2
Menemukan korelasi adalah tugas yang besar dan kuat. Pernahkah Anda melihat alat ini bekerja? Mungkin membantu Anda menemukan cara yang tepat untuk mengatur data Anda.
Jadi Anda ingin melakukan perhitungan korelasi dalam Delphi juga? Kemudian lihat daftar fungsi matematika Delphi ini : itu mencakup banyak dan juga memberikan penjelasan dan tautan ke perpustakaan.
@DaveBall Terima kasih atas tautan yang menarik, namun sementara laporan bug berasal dari Delphi, layanan web sebenarnya diimplementasikan di Jawa - mungkin saya dapat menggunakan algoritme sebagai titik awal, atau dalam alat statistik 'offline'.
1
Anda mungkin ingin melihat "model bahaya diskrit." Ini seperti kasus di mana Anda ingin mundur peristiwa kegagalan (crash) pada karakteristik tetap (variabel lingkungan) dan waktu sejak crash terakhir. Jika Anda memiliki cukup pengamatan (laporan kerusakan), Anda akan dapat menambahkan interaksi antara variabel lingkungan ke model. Ini kemudian akan mengarahkan Anda ke arah konflik sistem. Sayangnya, saya tidak tahu betapa mudahnya mengimplementasikan model seperti itu di Jawa.
jmtroos
1
Jenis-jenis analisis yang dapat Anda gunakan bergantung pada ukuran masalahnya, yaitu Berapa banyak jenis kerusakan yang ada? Berapa banyak atribut yang mungkin ada?
Sameer

Jawaban:

1

Bisakah Anda mencicipi mesin [non-crash] pengguna Anda untuk info yang sama dengan yang Anda dapatkan di laporan kerusakan? Karena dengan begitu Anda dapat menggunakan regresi logistik untuk memodelkan atribut-atribut tersebut (dan interaksi) dengan kemungkinan mendapatkan crash.

zzk
sumber