Saat ini menjalankan beberapa VM dan server 'baremetal'. Java berjalan dengan tinggi - lebih dari 400% + di beberapa waktu. Secara acak server hang dengan kesalahan di konsol "java - diblokir selama lebih dari 120 detik" - kjournald, dll.
Saya tidak bisa mendapatkan output dmesg karena untuk beberapa alasan kesalahan ini hanya menulis ke konsol, yang saya tidak memiliki akses karena ini di-host dari jarak jauh. karena itu saya tidak dapat menyalin jejak lengkap.
Saya mengubah lingkungan ini - bahkan server fisik dan itu masih terjadi.
Saya mengubah hung_task_timeout_secs menjadi 0 seandainya ini adalah false positive seperti pada http://docs.redhat.com/docs/en-US/Red_Hat_Enterprise_Linux/6/html/Technical_Notes/deployment.html .
Juga, irqbalance tidak diinstal, mungkin itu akan membantu?
ini adalah Ubuntu 10.04 64bit - masalah yang sama dengan server 2.6.38-15 terbaru dan 2.6.36.
dapatkah cpu atau masalah memori / tidak ada swap yang tersisa menyebabkan masalah ini?
ini pesan konsolnya:
[58Z?Z1.5?Z840] INFUI task java:21547 blocked for more than 120 seconds.
[58Z?Z1.5?Z986] "echo 0 > /proc/sgs/kernel/hung_task_timeout_secs" disables this
message.
[58Z841.5?Z06Z] INFUI task kjournald:190 blocked for more than 120 seconds.
[58Z841.5?Z336] "echo 0 > /proc/sgs/kernel/hung_task_timeout_secs" disables this
message.
[58Z841.5?Z600] INFUI task flush-202:0:709 blocked for more than 120 seconds.
[58Z841.5?Z90?] "echo 0 > /proc/sgs/kernel/hung_task_timeout_secs" disables this
message.
[58Z841.5?3413] INFUI task java:21547 blocked for more than 120 seconds.
[58Z841.5?368Z] "echo 0 > /proc/sgs/kernel/hung_task_timeout_secs" disables this
message.
[58Z961.5?ZZ36] INFUI task kjournald:60 blocked for more than 120 seconds.
[58Z961.5?Z6Z5] "echo 0 > /proc/sgs/kernel/hung_task_timeout_secs" disables this
message.
[58Z961.5?31ZZ] INFUI task flush-202:0:709 blocked for more than 120 seconds.
[58Z961.5?3393] "echo 0 > /proc/sgs/kernel/hung_task_timeout_secs" disables this
message.
dmesg
(jika cukup baru-baru ini dicatat) karena perintah ini mencetak buffer ring logging kernel. Semogasyslog
setup Anda juga akan login di suatu tempat/var/log
, tetapi saya tidak tahu di mana./var/log/dmesg
, tetapi mungkin muncul ketika Anda menjalankandmesg
perintah. File ini dibuat selama proses boot dan umumnya hanya menangkap pesan-pesan kernel boot-time (yang jika tidak akhirnya akan keluar dari buffer ring kernel. Anda juga dapat menginstal / mengaktifkansysstat
dan melihat pemanfaatan sumber daya seperti yang dilaporkan di sana. Saya menduga disk I / O / iowait, kemungkinan terkait dengan swapping (sysstat akan membantu dalam mengidentifikasi ini)Kemudian lakukan perubahan dengan:
dipecahkan untuk saya ....
sumber
Saya baru-baru ini melewati kesalahan ini di salah satu cluster Produksi kami:
..
Pada verifikasi lebih lanjut dari log sar Ditemukan menunggu IO meningkat pada waktu yang sama.
Dan setelah memeriksa Perangkat Keras (Disk Fisik) melihat kesalahan sedang dan Kesalahan SCSI lainnya telah login pada Disk Fisik, yang pada gilirannya memblokir IO, karena kurangnya sumber daya untuk mengalokasikan.
Jadi ini karena kesalahan perangkat keras, di cluster kami.
Jadi akan lebih baik, jika Anda bisa memeriksa file inti dan juga jika utilitas ipmi ada, periksa ipmiutil / ipmitool sel elist perintah untuk memeriksa masalah ini.
Salam, VT
sumber
Anda bisa pergi ke antarmuka pemantauan penyedia cloud Anda dan memeriksa apakah Anda tidak melebihi IOps maksimum yang ditentukan untuk penyimpanan Anda, itu akan menjelaskan mengapa perlu waktu lama untuk membersihkan data cache.
IOps maksimum tersedia di halaman atribut penyimpanan Anda.
sumber