Saya memiliki server Ubuntu kecil yang berjalan di rumah, dengan 2 hard drive. Ada dua serangan perangkat lunak (raid1) pada disk, yang dikelola oleh mdadm, yang saya percaya tidak relevan, tetapi tetap menyebutkannya.
Kedua hard drive tersebut adalah Western Digital, dan telah digunakan selama sekitar 2 tahun, ketika salah satu dari mereka mulai mengeluarkan bunyi klik, dan mati. Saya pikir mungkin itu alami setelah 2 tahun, jadi saya membeli yang baru, dan menyinkronkan ulang susunan serangan. Setelah sekitar satu bulan, drive lain juga mati.
Saya tidak curiga, karena kedua drive telah dibeli pada saat yang sama, tidak mengherankan melihat keduanya berdekatan, jadi saya membeli yang lain.
Sejauh ini, 2 drive lama gagal, dan 2 baru dalam sistem. Setelah satu bulan, salah satu drive baru mati. Saat itulah mulai mencurigakan. Karena PC disatukan dari beberapa bagian yang benar-benar tua (pikirkan AthlonXP), saya pikir mungkin pengontrol SATA motherboard adalah penyebabnya. Tentu saja Anda tidak dapat mengganti bagian dengan mudah di PC lama seperti ini, jadi saya membeli seluruh sistem, MB baru, CPU baru, RAM baru. Mengambil kembali drive yang baru saja gagal, karena masih dalam garansi, dan mendapatkannya diganti.
Jadi terserah 2 drive gagal dari yang lama, dan 1 gagal drive dari yang baru. Tidak masalah, selama 1 bulan. Setelah itu kesalahan muncul lagi di / var / log / messages, dan mdadm melaporkan kegagalan raid array. Saya mulai mencabut rambut saya. Semuanya baru dalam sistem, terserah hard drive baru ketiga, tidak mungkin semua drive baru yang saya beli salah.
Mari kita lihat apa yang masih umum ... kabelnya. Oke, lama sekali, mari kita ganti kabel SATA. Ambil hard drive kembali, tersenyum kepada pria di konter dan berkata bahwa saya benar-benar sial. Ia mengganti hard drive. Saya pulang, satu bulan berlalu dan satu hard drive gagal, lagi. Saya tidak bercanda.
Dua hard drive baru telah gagal. Mungkin itu bug di OS. Mari kita lihat apa kata alat pengujian pabrikan. Unduh alat pengujian, bakar ke CD, reboot, biarkan pengujian hard drive semalaman. Tes mengatakan bahwa drive itu rusak, dan saya harus mencadangkan semuanya, jika saya masih bisa. Saya tidak tahu apa yang terjadi, tetapi itu tidak terlihat seperti masalah perangkat lunak, sesuatu pasti menghancurkan hard drive.
Saya harus menyebutkan sekarang, bahwa seluruh sistem berada dalam kotak sepatu. Karena ada banyak barang "buat kasingmu sendiri", kupikir seharusnya tidak ada masalah melempar barang itu ke dalam kotak, dan menyimpannya di suatu tempat. Kotak berventilasi baik, tapi saya pikir mungkin saja drive terlalu panas. Tidak ada jawaban lain yang mungkin untuk ini. Jadi saya mengambil hard drive kembali, dan menggantikannya (untuk yang ke-3), dan membeli pendingin hard drive.
Dan sekarang, saya telah mendengar suara ajal. klik klik whizzzzzzzzz . SSH ke dalam kotak:
You have new mail!
mail
r 1
DegradedArrayEvent on /dev/md0 ...
output dmesg:
[47128.000051] ata3: lost interrupt (Status 0x50)
[47128.000097] end_request: I/O error, dev sda, sector 58588863
[47128.000134] md: super_written gets error=-5, uptodate=0
[48043.976054] ata3: lost interrupt (Status 0x50)
[48043.976086] ata3.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x6 frozen
[48043.976132] ata3.00: cmd c8/00:18:bf:40:52/00:00:00:00:00/e1 tag 0 dma 12288 in
[48043.976135] res 40/00:00:00:4f:c2/00:00:00:00:00/00 Emask 0x4 (timeout)
[48043.976208] ata3.00: status: { DRDY }
[48043.976241] ata3: soft resetting link
[48044.148446] ata3.00: configured for UDMA/133
[48044.148457] ata3.00: device reported invalid CHS sector 0
[48044.148477] ata3: EH complete
Rekap:
- Tidak ada kemungkinan overheating
- 6 drive gagal, 4 drive baru. Saya tidak yakin sekarang bahwa dua yang asli telah rusak, atau menderita hal yang sama dengan yang baru.
- Tidak ada yang umum dalam sistem, selain dari OS yang sekarang Ubuntu Karmic (dimulai dengan lela). MB baru, CPU baru, RAM baru, kabel SATA baru.
- Tidak, lubang kecil pada hard drive tidak tertutup
Saya menangis. Sangat. Saya tidak punya wajah untuk kembali ke toko sekarang, tidak mungkin untuk 4 drive gagal di bawah 4 bulan.
Beberapa ide yang saya pikirkan: Apakah mungkin saya mengacaukan sesuatu ketika saya mempartisi dan menyinkronkan ulang drive? Bisakah itu begitu buruk sehingga secara fisik merusak drive? (karena alat yang disediakan vendor mengatakan bahwa drive rusak) Saya melakukan partisi dengan fdisk, dan menggunakan ukuran blok yang sama untuk partisi raid1 (saya memeriksa ukuran blok yang tepat dengan fdisk -lu)
Apakah mungkin kernel Linux atau mdadm, atau sesuatu yang tidak kompatibel dengan hard drive merek yang tepat ini, dan meremukkannya?
Apakah mungkin itu kotak sepatu? Coba letakkan di tempat lain? Sekarang ada di bawah rak, jadi kelembaban juga tidak masalah. Mungkinkah case PC normal akan menyelesaikan masalah saya (saya akan menembak sendiri kalau begitu)? Saya akan mendapatkan gambar besok.
Apakah saya hanya dikutuk?
Setiap bantuan atau spekulasi sangat dihargai.
Sunting : Strip daya dilindungi terhadap tegangan lebih.
Sunting2 : Saya telah pindah di antara 4 bulan ini, jadi kemungkinan penyebabnya menjadi "kotor" listrik di kedua tempat, sangat rendah.
Sunting3 : Saya telah memeriksa tegangan pada BIOS (tidak dapat meminjam multimeter), dan semuanya tampak benar, perbedaan terbesar ada pada 12V, karena memasok 11.3. Haruskah saya khawatir tentang itu?
Sunting4 : Saya meletakkan PSU PC desktop saya ke server. BIOS melaporkan pembacaan tegangan yang jauh lebih akurat, dan juga telah berhasil membangun kembali array raid1, yang memakan waktu 3-4 jam, jadi saya merasa sedikit positif sekarang. Akan mendapatkan PSU baru besok untuk mengujinya. Juga, lampirkan gambar tentang kotak: (abaikan drive ke-3)
sumber
Jawaban:
Apakah catu daya Anda juga tua? Mungkin itu under / over drive drive yang menyebabkan kegagalan. Jika Anda memiliki multimeter, saya akan mencoba mengukur tegangan yang berjalan di hard drive Anda dan menontonnya selama periode waktu tertentu. Penyebab lain mungkin listrik 'kotor', sehingga UPS mungkin dalam rangka sehingga akan 'membersihkan' daya yang masuk ke PSU.
sumber
Saya setuju dengan yang lain: kekuasaan.
Namun, dengan twist.
SEMUA komponen harus memiliki tanah UMUM - sasis khas, tetapi dalam kasus Anda, siapa tahu! "Tanah yang melayang" akan menyebabkan ini, saya yakin.
Anda ingin semua komponen diikat ke satu ground DAN tanah yang diikat ke ground dari ground "jaringan listrik" fasilitas Anda. Ini penting.
BTW, ada kemungkinan bahwa semua perangkat keras lama Anda sebenarnya masih OK! Saya telah menemukan bahwa peralatan yang dihadapkan dengan catu daya yang keripik kadang-kadang bertahan dengan baik ketika pasokan yang tepat disediakan.
Saya harap ini membantu.
RT
sumber
Ini adalah pos lama dan pertanyaan awal mungkin tidak lagi relevan dengan orang yang mengajukan pertanyaan. Namun, untuk referensi di masa mendatang tentang orang-orang yang membangun PC anggaran, Power bukan masalah yang mencakup semua dengan drive disk. Ini, menurut pendapat profesional saya sebagai insinyur implementasi bersertifikat EMC, jawaban yang menyesatkan untuk menyalahkan catu daya sebagai satu-satunya pihak yang bertanggung jawab mengingat bahwa komputer berada di dalam kotak kardus.
Hard disk bergetar, dan meskipun tidak ada posisi tertentu, vertikal, atau horizontal, yang menambah atau mengurangi umur panjang disk, namun ada faktor getaran yang diciptakan oleh hard drive dengan spindle. Drive yang ditampilkan di sini hanya diletakkan di kotak kartu. Ini adalah contoh dari rekayasa anggaran, dan drive bergetar duduk di sisinya, semakin meningkatkan resonansi di piring. Meskipun ini bukan jawaban dalam dirinya sendiri, hard disk yang dipasang secara tidak tepat DAPAT menyebabkan kesalahan disk karena piringan bergetar yang mengganggu kepala baca dan tulis agar tidak menyentuh piringan dengan benar.
Listrik, catu daya murah selalu buruk untuk komputer pada umumnya, namun, kecil kemungkinan PSU ini membunuh hard drive dan bukan komponen yang lebih sensitif di papan tulis. Sistem ini ada di dalam kotak kardus, sehingga rekayasa dan daya bisa menyebabkan kegagalan yang lebih besar, tetapi tidak harus kesalahan disk-nya. Itu mungkin, tetapi tidak terbukti dalam kasus ini.
Panas: panas dapat menghancurkan disk, namun, jika tidak panas saat disentuh pada saat kegagalan, panas bukanlah penyebabnya. Kotak papan kartu bukan teknik yang bagus untuk PC atau server. Anda lebih baik membaut bagian-bagian Anda ke meja komputer atau bangku kerja, setidaknya mereka akan di-ground.
RAID lunak dan drive murah. Mengingat kotak papan kartu dan bagian-bagian lama yang dilihat dalam foto, Anda tampaknya menggunakan drive desktop standar dan Soft RAID. Drive desktop dapat ditempatkan ke pengontrol RAID, namun, dengan peningkatan I / O pada disk, kemungkinan kesalahan disk meningkat. Disk yang dicitrakan dalam kasus ini bukan pada pengontrol RAID perangkat keras, tetapi dikelompokkan bersama dengan komponen perangkat lunak pada motherboard. Ini tidak ideal untuk hard drive. Ini meningkatkan beban kerja pada CPU Anda, dan RAID lunak telah diketahui memiliki kesalahan dan membunuh hard drive sebelum waktunya. Kemungkinan soft RAID membunuh drive ini di atas segalanya.
Pencegahan untuk bangunan di masa mendatang: Jika Anda membaca ini dan melihat skenario pengguna lama ini melalui pertanyaan google atau tidak:
-Pastikan bahwa disk Anda dipasang dengan benar dalam sasis hard drive yang stabil. Pasang baut pada disk Anda dengan setidaknya 4 sekrup hard drive, atau gunakan kereta luncur disk khusus yang sesuai dengan sasis Anda.
-Pastikan bahwa Anda memiliki aliran udara yang cukup dalam casing Anda, hard disk dalam RAID cenderung memiliki lebih banyak I / O pada disk, dan akan jauh lebih panas daripada jika volume fisik dipasang secara individual.
-Jangan gunakan catu daya murah. Daya kotor adalah pembunuh komponen komputer yang mahal. Pastikan juga catu daya Anda menyediakan watt yang cukup untuk menangani beban kerja yang diinginkan.
-Gunakan kartu pengontrol RAID! Jangan pernah gunakan soft RAID pada motherboard Anda. Soft RAID mengurangi kinerja disk dan meningkatkan kemungkinan kegagalan disk lebih dari pada kartu pengontrol RAID.
-RAID secara umum meningkatkan kemungkinan kegagalan disk karena peningkatan I / O di semua volume Anda. Semakin besar kumpulan disk yang bergabung, semakin tinggi kemungkinan drive gagal. Jika Anda melakukan RAID pada drive Anda, selalu gunakan drive parity dan hot spares. Anda mungkin kehilangan data Anda jika Anda RAID 0 2-3 disk. Jika Anda memiliki 3 disk, gunakan RAID 5! 6 disk pada RAID 5 (4 +1) dengan cadangan panas sangat ideal jika drive Anda dicakup dalam garansi. Jika Anda tidak dapat membeli lebih banyak disk atau disk Anda tidak memiliki garansi, jangan gunakan RAID.
-Desktop drive bukan drive Perusahaan. Drive desktop serupa dengan drive Enterprise, tetapi tidak dirancang untuk menangani beban kerja besar yang ditimbulkan dengan pengontrol RAID. Jika Anda membeli drive desktop dari newegg dan RAID kami di motherboard Anda, Anda cenderung melihat setidaknya satu kegagalan drive di tahun pertama Anda. Semakin lama Anda mengoperasikan mesin Anda pada RAID, semakin banyak I / O ditulis ke disk dan semakin tinggi kemungkinan volume Anda akan mengalami kegagalan. Kombinasikan drive murah dengan motherboard soft RAID murah dan Anda akan terluka.
Kemungkinan pengguna ini mengalami semua faktor ini di server kotak sepatunya. Daya murah, aliran udara buruk, drive murah lama yang tidak dipasang dengan benar pada sasis, dan motherboard soft RAID ... ini semua meningkatkan kemungkinan kesalahan disk.
sumber
Saya tidak bisa membayangkan bagaimana Anda memiliki ventilasi dan pendinginan yang baik dalam kotak sepatu? Anda benar-benar harus keluar uang 50 atau 60 untuk kasus komputer nyata?
Strip daya hanya melindungi dari lonjakan daya; masalah umum untuk peralatan elektronik adalah tegangan (brown out) dan tegangan berlebih (spiking). Juga umum adalah kebisingan EMI - kami memiliki komputer yang tidak stabil beberapa waktu lalu yang ternyata disebabkan oleh memiliki treadmill pada sirkuit yang sama (saya secara pribadi memverifikasi ini tanpa keraguan). Itu akan menendang modem offline, dan menyebabkan sistem hanya membeku dari waktu ke waktu.
Selain itu, paparan kebisingan dan fluktuasi catu daya yang terus-menerus dengan akhirnya merusak PSU, seiring waktu, menurunkan kualitas daya yang dikirim ke elektronik.
EDIT: Fluktuasi daya listrik dapat diisolasi ke sirkuit tertentu. Lebih penting lagi, peralatan dengan daya tarik tinggi seperti microwave, lemari es, treadmill, kompor, dan sejenisnya dapat berdampak signifikan pada kualitas daya pada sirkuit itu. Dan hal-hal seperti lemari es juga memiliki siklus operasi on / off yang terus-menerus yang pada gilirannya berwarna cokelat dan paku daya pada saluran ketika motor menendang masuk dan keluar.
Juga, jika Anda dilayani oleh perusahaan listrik yang sama, mereka mungkin mengalami masalah saat memasok tegangan di seluruh papan. Fluktuasi terus-menerus antara 105V dan 125V akan memiliki efek negatif pada elektronik (seperti yang saya mengerti).
sumber
Ini benar-benar terdengar seperti masalah daya.
Jika Anda memiliki lonjakan daya, banyak strip daya murah hanya akan berfungsi sekali - dan biasanya tidak ada indikasi bahwa mereka tidak lagi melindungi.
UPS yang baik mungkin membantu - beberapa yang lebih canggih benar-benar menghasilkan daya dari baterai, dan secara terus menerus mengisi ulang, memberikan daya yang sepenuhnya terisolasi. Satu-satunya kelemahan adalah mereka bisa berisik.
sumber
Sebenarnya produsen HDD tidak mencetak informasi mengenai posisi kerja pada drive mereka, tetapi mendudukkan hard drive di sisi mereka benar-benar ok. Terakhir kali saya memeriksa informasi itu, drive dapat diposisikan rata atau miring, dan hingga sudut 5 atau 10 derajat dari posisi ini. Meletakkannya terbalik atau konektor menghadap ke atas atau ke bawah bukanlah posisi yang legal. Konektor yang menghadap ke atas atau ke bawah dulunya adalah posisi terbaik untuk transportasi sekitar 15 tahun yang lalu. Ini adalah informasi terbaru yang saya miliki tentang ini.
Saya mengalami kesalahan yang sama pada hard drive hijau WD 500GB yang baru, dan kabel SATA Anda terlihat seperti milik saya, dan saya sangat mencurigainya.
Masalah pentanahan bukan merupakan hal yang buruk, komponen harus ditanahkan dengan pemasangan yang benar pada wadah logam tetapi tidak melakukan hal yang seharusnya tidak menjadi masalah jika semua konektor dan kabel 100% ok.
Tentu saja catu daya yang buruk dapat melakukan banyak hal buruk pada seluruh sistem, saya akan menguji dengan PSU ASAP baru, lebih disukai dengan segala yang terpasang pada sasis yang layak.
Semoga berhasil
sumber
Saya setuju bahwa kemungkinan buruk adalah biang keladinya. Namun, pertimbangkan kepanasan sebagai penyebab yang mungkin. Jika drive terasa panas saat disentuh maka drive tersebut terlalu panas. Taruh kipas pada mereka.
sumber
Anda dapat memeriksa apakah mereka sudah terlalu panas dengan melihat nilai-nilai SMART. Membumikan case tidak diperlukan karena banyak hot swap carrier terbuat dari plastik dan tidak membumi. Membumikan melalui kabel SATA harus memadai. Memiliki mereka terpasang dengan kuat MUNGKIN membantu dengan masalah getaran. Kepala tidak menyentuh platter, tetapi naik sedikit di atas dan berdampak pada platter dapat menyebabkan partikel kecil terganggu yang pada akhirnya dapat menyebabkan crash kepala.
sumber
Anda mungkin harus memperbarui instalasi Ubuntu Anda. Beberapa bulan (tahun?) Yang lalu, bug ditemukan yang menyebabkan peningkatan keausan hard drive pada pemasangan Ubuntu.
Lihat tautan ini tentang masalah / bug ini: Frekuensi tinggi siklus muat / bongkar pada beberapa hard disk dapat mempersingkat masa pakai
sumber
Mungkinkah ada speaker besar, lemari es, AC, motor listrik atau sumber magnet lain di sebelah kotak sepatu Anda (benar-benar tidak terlindung)?
sumber
Saya setuju bahwa tanah yang buruk mungkin menjadi penyebab tragedi penyimpanan Anda. Namun, saya juga akan "memperbaiki" hard disk drive lebih erat, karena getaran dapat menyebabkan kerusakan permanen.
sumber
Periksa pemisah daya yang membagi daya untuk kipas drive. Konektor terputus-putus dapat menyebabkan drive Anda kehilangan daya pada saat kritis dan menabraknya. Jelas membutuhkan case untuk solid ground antara MB, PSU, dan HD.
sumber
Saya pikir berdiri hard drive di sisi mereka mungkin berkontribusi pada kegagalan mereka bekerja dengan baik karena dalam kebanyakan kasus, hard drive dipasang rata dalam kasing komputer mereka.
sumber