Baik. Setelah scrub rutin, MDADM RAID5 saya melaporkan mismatch_cnt = 16. Seperti yang saya pahami, ini berarti bahwa sementara tidak ada perangkat yang melaporkan kesalahan baca, ada 16 blok yang data dan paritasnya tidak setuju.
Pertanyaan # 1: Bisakah seseorang mendapatkan daftar blok ini?
Pertanyaan # 2: Dengan asumsi # 1 adalah mungkin, mengingat bahwa sistem file yang mendasarinya adalah EXT4, apakah ada cara untuk mengidentifikasi file mana yang dikaitkan dengan blok ini?
Saya memang memiliki backup nearline dan, di dunia yang ideal, saya hanya bisa mengubah array langsung terhadap data cadangan untuk menemukan file yang telah rusak secara diam-diam. Namun kenyataannya menarik kembali 6TB dari data cadangan akan menjadi mahal dan memakan waktu. Mengetahui ke mana harus mencari dan apa yang harus dipulihkan akan sangat menyederhanakan banyak hal.
(Saya harus mencatat bahwa saya hanya menjalankan scrub RAID dengan opsi 'check'. Menjalankan scrub dengan opsi 'repair' tampaknya sangat berbahaya karena MDADM hanya tahu bahwa data atau paritasnya salah tetapi tidak tahu yang mana. Jadi sepertinya ada kemungkinan 50% bahwa MDADM menebak salah dan merekonstruksi data yang salah. Karena itu, keinginan saya untuk mengetahui file mana yang berpotensi terpengaruh sehingga saya dapat mengembalikannya dari cadangan, jika perlu)
Setiap saran sangat dihargai!
dmesg
atau / var / log / syslog?icheck
+ncheck
dalamdebugfs
untuk mengidentifikasi file berdasarkan offset sektor.smartctl -a /dev/sda
dan sebagainya), atau gunakan metode lain apa pun yang Anda miliki untuk menjalankan tes SMART singkat pada setiap disk dan mencetak laporan lengkap. Sangat mungkin salah satu dari mereka sekarat, dan dibutuhkan sejumlah besar kejahatan untuk memicu alarm kesehatan SMART secara keseluruhan.Jawaban:
Maaf, 'centang' memang menulis kembali ke array ketika menemukan kesalahan - lihat https://www.apt-browse.org/browse/ubuntu/trusty/main/amd64/mdadm/3.2.5-5ubuntu4/file /usr/share/doc/mdadm/README.checkarray
... jadi mungkin sudah terlambat untuk mengumpulkan data yang Anda cari, maaf.
Untuk jangka panjang, perlu dicatat bahwa RAID5 (dan 6, dan 1) tidak memiliki perlindungan terhadap bit-rot yang kemungkinan merupakan situasi yang Anda temui. Ketika data dalam satu disk memburuk, mereka tidak memiliki cara untuk menentukan data mana yang baik vs buruk. Saya sarankan berencana untuk bermigrasi ke sistem file yang checksum setiap disk seperti btrfs atau zfs.
(RAID-5 benar-benar tidak boleh digunakan dalam penyebaran baru - dan benar-benar tidak boleh di mana kapasitas cakram mentah masing-masing lebih dari 2TB - lihat http://www.zdnet.com/article/why-raid-5- stop-working-in-2009 / )
sumber