Melakukan analisis akar-penyebab

9

Saya ingin belajar lebih banyak tentang bagaimana melakukan analisis akar-penyebab. Lebih sering daripada tidak, departemen kami memberi tahu pengguna untuk mencoba me-reboot (sistem Windows XP mereka), yang sebenarnya "memperbaiki" sejumlah masalah. Ketika saya sedang terburu-buru (dan kadang-kadang dibayar setiap jam berkontribusi untuk ini) saya mungkin mencoba mencari solusi untuk menyelesaikan masalah dengan cepat daripada benar-benar melakukan analisis akar-penyebab.

Sebagian besar waktu saya mencari file log atau penampil acara untuk informasi ini. Terkadang saya akan menggunakan alat Sysinternals atau sesekali menjalankan packet sniffer. Saya mungkin tidak menggunakan program Sysinternals sebanyak yang seharusnya. Beberapa wawasan khusus tentang bagaimana Anda menggunakan alat ini, kapan dan mengapa juga akan sangat membantu.

Saya tahu ini adalah pertanyaan terbuka lebar tetapi bisakah Anda menjelaskan secara singkat metodologi, alat, dll. Yang Anda gunakan? Sepertinya banyak admin di SF menggunakan proses yang lebih mendalam yang ingin saya pelajari lebih lanjut. Jika ini membantu mempersempit pertanyaan, saya akan sangat tertarik dengan alat, kiat, trik, dll. Yang relevan dengan server Windows & klien dalam lingkungan AD.

jftuga
sumber

Jawaban:

5

Mencari tahu akar penyebab masalah tergantung pada masalahnya - Naluri awal Anda untuk melihat file log / sysinternals tools / packet sniffer umumnya benar.
Saya akan menambahkan menjalankan Alat Penghapusan Perangkat Lunak Berbahaya MS dan program AV yang baik pada sistem Windows (dan memastikan bahwa mereka tidak memiliki sesuatu seperti CyberDefender atau malware AV-trojan lainnya.

Orang-orang di Stack Exchange adalah pendukung metode "5 Whys" ( http://en.wikipedia.org/wiki/5_Whys , juga PDF pendek yang bagus ini yang menunjukkan sedang beraksi ). Ini adalah alat yang sangat berharga untuk melakukan analisis akar penyebab.


Di luar itu saya akan melukis dua kategori besar dan beberapa pertanyaan yang biasanya saya tanyakan / hal-hal yang saya periksa:

Perilaku misterius yang tidak terkait dengan jaringan,
mis. "Word terus menabrak saya"

Pertanyaan dasar untuk ditanyakan:

  1. Apa yang berubah?
    (Jangan menerima "apa-apa" untuk jawaban - itu adalah kebohongan pertama. Perangkat lunak baru, tambalan, dll. Semuanya diperhitungkan.)
  2. Apa yang kamu lakukan ketika kamu memiliki masalah?
    (Cobalah untuk mengekstrak sebanyak mungkin detail di sini - dalam contoh saya di atas "Saya menekan tombol pintas untuk memasukkan inisial dan program macet")
  3. Apakah ini pernah berhasil sebelumnya?
    (Jika demikian, mulailah melihat hal-hal dari (1) di atas)
  4. Bisakah Anda mereproduksi masalah pada sistem Anda?
    (Jika demikian, itu pertanda baik: Panggilan dukungan teknis ke vendor mungkin membantu. Jika tidak, Anda harus melihat sistem pengguna untuk sisa pertanyaan ini.)
  5. Apa yang berbeda tentang lingkungan pengguna dari lingkungan Anda?
  6. Apakah tersangka perangkat keras pengguna (Jalankan tes memori, cari kesalahan SMART dari hard drive, dll.)
  7. Jika Anda sudah sejauh ini (memeriksa perangkat keras, memeriksa perangkat lunak, tidak ada virus, tidak ada malware) kunjungi pengguna selama sehari. Amati kebiasaan kerja mereka.
    Perusahaan saya pernah memiliki sistem penguncian misterius yang terkait dengan mengklik mouse pada frekuensi tertentu (Kami masih tidak tahu mengapa, tetapi kami harus menonton pengguna melakukannya dan berlatih selama sehari agar dapat mereproduksi itu andal)

Masalah yang terkait dengan jaringan

Banyak dari ini mirip, tetapi dengan beberapa panduan yang lebih spesifik.

  1. Apa yang berubah?
    (Ya, Anda selalu mulai di sana)
  2. Apa yang rusak
    • Bisakah Anda menjangkau halaman web? Apakah hanya satu yang rusak? Jika demikian, apakah ini untuk semua orang atau hanya Anda ?
    • Bisakah Anda melakukan ping ke internet dengan nama?
      Bagaimana dengan IP? Seberapa jauh traceroute dapat?
  3. Kapan itu rusak?
    • Selalu waktu yang sama dalam sehari?
    • Untuk periode singkat setiap N hari?
    • Secara acak (apakah ini BENAR - BENAR acak? Plot di kalender ...)
  4. Adakah yang aneh dengan situs remote?
    • Lihat DNS - Jika round-robin'd mungkin ada kerusakan sisi-jauh
    • Apakah kita berbicara tentang ujung lain dari VPN? Ada apa dengan VPN (log!)?
  5. Apakah ada yang aneh dengan situs lokal?
    • Periksa firewall lokal Anda
    • Periksa "perangkat lunak pemfilteran" apa saja
  6. Periksa dengan ISP Anda untuk melihat apakah ada masalah yang diketahui
  7. Periksa situs seperti http://www.internetpulse.net/ untuk masalah jaringan yang diketahui
  8. Periksa mesin pengguna
    (pengaturan TCP, dll. - Biasanya bukan masalah, tapi kadang-kadang.)
voretaq7
sumber
1

Selain tanggapan yang sangat baik sejauh ini, saya akan menambahkan:

  • Identifikasi tanggal / waktu permulaan masalah. Ini mungkin tampak jelas, tetapi saya telah melihat terlalu banyak masalah di mana ini tidak didokumentasikan dan kemudian dibuat asumsi yang salah. Ini berkorelasi baik dengan langkah "apa yang berubah".

  • Apakah masalah dapat direproduksi atau terputus-putus? Ini penting, karena gejala yang dapat direproduksi jauh lebih mudah dan lebih cepat untuk diselesaikan daripada gejala yang berselang. Jika dapat direproduksi, pastikan langkah-langkahnya didokumentasikan.

  • Identifikasi gejalanya. Perhatikan bahwa kita membedakan antara "gejala", yang merupakan manifestasi dari penyebab utama, dan masalah / penyebab sebenarnya.

    1. Apakah ada kegiatan lain yang dapat mereproduksi gejala?
    2. Apa gejala lain yang ada?
    3. Jika masalah ini terputus-putus, dapatkah kita mengidentifikasi suatu kegiatan yang akan menyebabkannya terjadi?
    4. Dalam keadaan apa kita dapat mencegah gejala terjadi? Apakah masalah hanya terjadi ketika logon menggunakan akun jaringan, tetapi berhasil jika logon secara lokal? Apakah masalah terjadi saat masuk sebagai pengguna normal, tetapi berfungsi dengan baik jika masuk dengan hak istimewa yang ditingkatkan? Apakah hanya terjadi pada satu sistem, tetapi sistem lain yang seharusnya serupa tidak menunjukkan gejalanya?
  • Melokalisasi masalah ke komponen fungsional yang mungkin salah. Jika ada kesalahan dalam aplikasi web, apakah itu dalam kode aplikasi, server web, sistem operasi hosting server web, jaringan, atau ujung jarak jauh? Ini adalah tebakan terbaik pada titik ini sehingga sumber daya difokuskan pada kemungkinan penyebabnya, jadi pastikan bahwa orang lain tahu bahwa ini adalah teori / dugaan.

  • Pertanyakan asumsi Anda, dan cobalah untuk mengumpulkan data empiris untuk mendukung untuk mendukung asumsi dan kesimpulan. Rasanya cukup buruk untuk memberi tahu seseorang bahwa tidak ada masalah dengan x, dan kemudian diketahui bahwa sebenarnya ada. Biasanya ketika ada solusi yang salah, mungkin ada data untuk mendukung solusi yang benar.

Greg Askew
sumber