Bagaimana seorang tamu di dalam ESX menemukan masalah seperti ini?
[ 40.601502] end_request: critical target error, dev sdg, sector 430203456
[ 40.601563] sd 2:0:6:0: [sdg] Unhandled sense code
[ 40.601582] sd 2:0:6:0: [sdg] Result: hostbyte=invalid driverbyte=DRIVER_SENSE
[ 40.601622] sd 2:0:6:0: [sdg] Sense Key : Hardware Error Sense Key : Hardware Error [current] [current]
[ 40.601661] sd 2:0:6:0: [sdg] Add. Sense: Internal target failureAdd. Sense: Internal target failure
[ 40.601695] sd 2:0:6:0: [sdg] CDB: Write(10)Write(10):: 2a 2a 00 00 02 19 64 a4 05 62 c0 80 00 00 00 00 40 40 00 00
- secara fisik data pada vmfs disimpan dalam array raid6 (adaptec 5805), yang tampaknya bahagia
- juga host ESX tidak mencatat masalah apa pun
- ukuran disk yang dilaporkan oleh tamu tampaknya sama dengan ukuran disk yang disediakan
- melalui ESX tamu memiliki 9 'drive' yang sama terpasang dan hanya 2 menunjukkan masalah ini
linux
vmware-esxi
Tobi Oetiker
sumber
sumber
dd if=/dev/sdg bs=512 skip=430203455 count=1
untuk membaca kembali atau hanyabadblocks -w -b 512 /dev/sdg 430203457 430203455
untuk melakukan siklus baca-tulis-tulis-ulang jika Anda merasa berani.Jawaban:
Saya pernah mengalami hal serupa pada volume cadangan untuk MS SQL di Win 2008 guest di bawah ESX 4.0 - ini adalah volume mentah yang terpapar dari filer NetApp.
OS Guest melaporkan (dan masih melaporkan) bad sector pada volume itu.
Saya pikir ini terjadi karena terlalu banyak operasi penulisan I / O, batas waktu sementara atau kelebihan filer.
Tidak ada lagi sektor buruk yang dilaporkan. NetApp "disk scrubing" mengatakan semuanya baik-baik saja. Tidak ada kesalahan filer yang dilaporkan.
Tapi bagaimanapun juga kita akan membuat ulang volume ini dan melihat apakah ini bisa memperbaikinya.
Bagaimana dengan volume Anda yang lain di filer ini? Bisakah Anda memeriksa volume ini dengan perintah "badblocks / dev / sdg"? (hati-hati: overhead baca besar)
sumber
Toh itu masalah hardware / firmware. Sementara Adaptec 5805 (dengan firmware terbaru) melaporkan semua volume RAID6 dalam keadaan optimal, ia juga melaporkan satu volume berisi 'Garis-garis Gagal'. Efek dari ini tampaknya, bagian dari volume RAID6 menjadi tidak dapat dibaca (menyebabkan kesalahan yang dikutip dalam pertanyaan). ESX tampaknya tidak melihat ini secara langsung, tetapi menjalankan
dd if=/dev/zero of=file-on-damaged-volume
langsung pada konsol ESXi berakhir dengan kesalahan i / o sementara masih ada banyak ruang di volume.Tidak ada jumlah arcconf verifikasi / verifikasi_perbaikan yang berjalan pada volume dan perangkat fisik dapat mendeteksi atau memperbaiki apa pun ... Akhirnya saya memindahkan semua data dari volume dan membuat kembali pada tingkat adaptec. Sekarang semuanya baik-baik saja, tetapi kepercayaan saya pada kemampuan adaptec untuk melindungi data saya sangat rusak.
sumber