kernel: jurnal melakukan kesalahan I / O

9

Saya mengalami beberapa masalah dengan server Dell 1950. Saya menginstal RHEL 4.6 bersama dengan Oracle dan beberapa perangkat lunak lain di sini.

Saya secara acak mendapatkan pesan kesalahan yang mengatakan "kernel: journal commit I / O error" pada sesi ssh saya dan pada monitor saya telah terhubung ke server saya melihat kesalahan bergulir dengan mengatakan "EXT3-fs error (device sda5) di start_transaction: Jurnal telah dibatalkan. "

Itu telah terjadi beberapa kali tetapi tidak pernah pada titik yang sama selama instalasi. Sebenarnya, terakhir kali sistem ini berjalan dan berjalan dan saya hanya mencoba untuk mengimpor database ke oracle.

Ini telah terjadi pada beberapa hard drive, jadi saya cukup yakin bukan itu masalahnya. Ini membuat saya berpikir pengontrol serangan akan buruk.

apa yang kalian pikirkan?

** PEMBARUAN **

Cukup yakin itu adalah hard drive yang buruk. Saya melemparkan drive lain di server dan sudah berjalan sekitar 48 jam tanpa masalah.

jasondewitt
sumber

Jawaban:

9

Saya pernah melihat kesalahan itu sebelumnya, tetapi tidak selama proses instalasi.

Ini berarti bahwa drive mendapat cukup banyak kesalahan sehingga OS membawanya ke mode read-only. Jika Anda dapat menemukan log lengkap, mungkin akan ada beberapa kesalahan I / O yang mencoba kembali dan bekerja sebelum kesalahan kegagalan penuh yang Anda lihat. Sesuatu dengan blok sebenarnya disebutkan.

Ini adalah kesalahan sistem penyimpanan. Sudah pasti kartu RAID, drive dalam array RAID, kabel dari kartu ke drive, backplane drive terhubung ke, slot kartu raid dicolokkan ke, catu daya untuk hard drive, atau sesuatu yang lain di antara CPU dan blok penyimpanan aktual.

freiheit
sumber
2

Tiga kemungkinan muncul di pikiran:

  1. Ada masalah memori (mereka sering menyebabkan crash "acak"). Jika Anda memiliki ram ECC di sana, maka jelas kemungkinannya kecil.

  2. Ada beberapa masalah dengan Bus. Saya memiliki masalah yang sama dengan kontroler APIC yang rusak pada motherboard Tyan dual Opteron beberapa tahun yang lalu. Ada entri log lain yang mengisyaratkan hal itu, tetapi sebagian besar gejalanya adalah korupsi acak pada disk drive dengan remount read-only otomatis. Dalam kasus saya, saya tahu itu bukan disk karena itu adalah kotak FC RAID eksternal dan itu baik-baik saja.

  3. Kontroler RAID adalah susun.

Ini agar saya mempertimbangkan masalah.

Alexandre Carmel-Veilleux
sumber
Mungkin bukan masalah memori; itu akan lebih cenderung menyebabkan segfault dan lebih banyak kesalahan acak, tidak terbatas hanya pada penyimpanan.
freiheit
Benar. Tetapi dalam situasi instal atau boot awal, sebagian besar penggunaan memori adalah buffer-cache sehingga masalah cenderung muncul terlebih dahulu. Setelah mesin telah menjalankan beberapa beban untuk sementara waktu proses pengguna mendominasi memori I / O dan prevalensi segfault. Karena itu, PE1950 harus memiliki prosesor Xeon dan ram ECC sehingga RAM harus dapat mendeteksinya dan melaporkannya ke Linux.
Alexandre Carmel-Veilleux
2

Bisa jadi pengontrol RAID menjadi buruk seperti yang Anda katakan (coba cadangan jika Anda memilikinya.) Ini bisa menjadi driver untuk pengontrol (periksa driver alternatif jika tersedia, bahkan jika kinerjanya lebih buruk, ada baiknya memiliki titik referensi .) Bisa jadi kernel (kemungkinan kecil di RHEL, ini sudah cukup teruji.) Bisa jadi RAM yang buruk mengacaukan cache blok.

Masalah perangkat keras adalah penyebab yang paling mungkin, berdasarkan pada perilaku kesalahan yang tampaknya acak.

Mihai Limbăşan
sumber
2

Periksa apakah disk tidak penuh - khususnya partisi root. Gunakan df untuk melihat penggunaan disk sistem file:

df -h

Cari partisi di dekat atau sama dengan utilisasi 100%

Peter H
sumber
-5

mencoba:

shutdown -rF sekarang


sumber