Software Linux Raid 10 digantung setelah 1 drive gagal, mdadm tidak akan membiarkan saya dengan paksa melepas perangkat yang salah

8

Saya memiliki setup 10 serangan perangkat lunak Linux yang terdiri dari 5 RAID 1 (Dua drive per konfigurasi mirror) dan RAID 0 di semua 5 pasangan RAID 1. Untuk menguji bahwa tidak ada drive yang gagal dengan cepat di bawah beban, saya menggunakan badblock di RAID 0 dengan mode baca / tulis destruktif.

Perintah badblocks: badblocks -b 4096 -c 98304 -p 0 -w -s / dev / md13

Salah satu perangkat gagal dan bukannya program badblock pindah dengan senang hati digantung. Jika saya menjalankan perintah sinkronisasi ini juga hang. Pertama saya akan menganggap ini bukan perilaku standar untuk perangkat RAID 1. Jika salah satu drive gagal itu masih harus dapat menulis ke perangkat virtual yang membuat dua drive tanpa masalah.

Jadi saya melanjutkan untuk memaksa gagal drive dan mencoba untuk menghapusnya. Saya dapat mengatur drive ke salah tanpa masalah (Namun operasi IO masih digantung). Saya tidak bisa menghapus perangkat sepenuhnya dari serangan itu katanya sibuk. Asumsi saya adalah bahwa jika saya bisa mengeluarkannya sepenuhnya dari serangan, IO akan berlanjut tetapi itu hanya asumsi dan saya pikir saya sedang berurusan dengan sejenis serangga.

Apa yang sebenarnya terjadi di sini? Apakah saya berada di tempat yang tidak dapat diperbaiki karena bug?

Sistem ini menjalankan kernel 2.6.18 sehingga tidak benar-benar baru tetapi saya akan berpikir mengingat bahwa serangan perangkat lunak telah ada untuk masalah begitu lama seperti ini tidak akan terjadi.

Pendapat apapun sangat dihargai.

mdadm --detail / dev / md13

/ dev / md13:

    Version : 00.90.03   Creation Time : Thu Jan 21 14:21:57 2010
 Raid Level : raid0
 Array Size : 2441919360 (2328.80 GiB 2500.53 GB)    Raid Devices : 5  

Total Perangkat: 5 Preferred Minor: 13 Kegigihan: Superblock gigih

Update Time : Thu Jan 21 14:21:57 2010
      State : clean  Active Devices : 5 Working Devices : 5 

Perangkat Gagal: 0 Perangkat Cadangan: 0

 Chunk Size : 64K

       UUID : cfabfaee:06cf0cb2:22929c7b:7b037984
     Events : 0.3

Number   Major   Minor   RaidDevice State
   0       9        7        0      active sync   /dev/md7
   1       9        8        1      active sync   /dev/md8
   2       9        9        2      active sync   /dev/md9
   3       9       10        3      active sync   /dev/md10
   4       9       11        4      active sync   /dev/md11

Output serangan yang gagal:

/ dev / md8: Versi: 00.90.03 Waktu Pembuatan: Kamis 21 Jan 14:20:47 2010 Tingkat Serangan: raid1 Ukuran Array: 488383936 (465,76 GiB 500,11 GB) Ukuran Perangkat: 488383936 (465,76 GiB 500,11 GB) Perangkat Serangan: 2
Total Perangkat: 2 Preferred Minor: 8 Kegigihan: Superblock gigih

Update Time : Mon Jan 25 04:52:25 2010
      State : active, degraded  Active Devices : 1 Working Devices : 1

Perangkat Gagal: 1 Perangkat Cadangan: 0

       UUID : 2865aefa:ab6358d8:8f82caf4:1663e806
     Events : 0.11

Number   Major   Minor   RaidDevice State
   0      65       17        0      active sync   /dev/sdr1
   1       8      209        1      faulty   /dev/sdn1
ScottZ
sumber

Jawaban:

1

Maaf, mungkin saya tidak mengerti dengan baik dan kucing / proc / mdstat bisa membantu, tetapi sejauh yang saya bisa lihat Anda menembak diri sendiri dengan kaki menghancurkan data Anda pada RAID0 dan seterusnya pada array RAID1 yang mendasarinya. Yaitu, jika Anda harus menguji keandalan RAID, Anda harus menandai sebagai gagal drive, disk, bukan untuk menghancurkan blok logis yang merujuk ke semua disk RAID1 yang mendasari, jika saya mengerti dengan baik masalahnya (beri tahu saya).

otak memutar
sumber
0

Mungkin Anda perlu meminta kernel untuk menghapus drive yang rusak. itu akan merilis RAID hangy.

Anda dapat menghapusnya dengan skrip seperti http://bash.cyberciti.biz/diskadmin/rescan-linux-scsi-bus/

Dom
sumber
Walaupun skrip ini menarik dan saya harus melihat lebih jauh bagaimana ia menambah / menghapus perangkat untuk melihat apakah saya dapat memaksa penghapusan tetapi pada akhirnya sistem masih melihat drive sebagai aktif. Perangkat tidak perlu sepenuhnya mati untuk serangan perangkat lunak untuk mengeluarkannya dari serangan1 dan dalam kasus ini beberapa penulisan gagal tetapi perangkat masih "ada"
ScottZ