Saya memiliki CPU I / O menunggu stabil sekitar 50%, tetapi ketika saya menjalankannya iostat 1
menunjukkan sedikit atau tidak ada aktivitas disk.
Apa yang menyebabkan menunggu tanpa iops?
CATATAN: Tidak ada sistem file NFS atau FUSE di sini, tetapi menggunakan virtualisasi Xen.
iotop
menunjukkan sesuatu kepada Anda?Jawaban:
NFS dapat melakukan ini, dan itu tidak akan mengejutkan saya jika sistem file jaringan lain (dan bahkan perangkat berbasis FUSE) memiliki efek yang sama.
sumber
Apakah ada kemungkinan VM lain di server meronta-ronta disk?
Saya tahu dengan virtualisasi bahwa Anda bisa mendapatkan beberapa hasil aneh jika node host kelebihan beban.
sumber
Jika ini adalah lingkungan Amazon EC2 Xen menggunakan penyimpanan berbasis instance, minta Amazon untuk memeriksa kesehatan host yang berisi gambar ini.
Jika ini adalah lingkungan Xen yang dapat Anda akses ke hypervisor, maka periksa IOwait dari tanpa untuk gambar disk (file, jaringan, slice LVM, apa pun) yang digunakan untuk perangkat xvda dan xvdb. Anda juga ingin memeriksa sistem I / O, secara umum, untuk hypervisor karena perangkat disk lain mungkin memonopoli sumber daya sistem.
biasanya merupakan alat diagnostik awal yang baik. Dibutuhkan ringkasan 5-detik I / O untuk SEMUA perangkat yang tersedia untuk itu, dan dengan demikian berguna baik dengan-dan melemahkan gambar VM.
sumber
Periksa deskriptor / inode file yang tersedia. Ketika Anda mencapai batas, mereka menukar dan meniru iowait
Edit
Saya melihat Anda menggunakan xen, lihat interupsi Anda saat ini, Anda mungkin menemukan blkif lebih tinggi dari biasanya.
Agak terlambat sekarang, tetapi instal munin dan itu akan sangat membantu debugging masa depan.
sumber
Kemudian periksa dmesg untuk melihat apa yang sedang melakukan blok baca / tulis atau mengotori inode.
Periksa juga batas nofile di limit.conf, suatu proses dapat meminta lebih banyak file daripada yang diizinkan untuk dibuka.
sumber
PERINGATAN: HDPARM BERBAHAYA, SELALU BACA TENTANG PERINTAH YANG ANDA AKAN GUNAKAN!
Jika tidak ada mesin virtual lain yang menekankan hard disk, lakukan
pada disk fisik yang mendasarinya. Kemungkinan cache disk tidak berfungsi secara akurat. Ini akan mem-flush data yang disimpan dalam cache, dan Anda dapat secara konstan memonitor I / O, apakah akan naik kembali setelah flush. Jika ya, itu akan menjadi masalah cache.
sumber
Dengan rata-rata beban, saya melihat peningkatan operasi jaringan (mis. Panggilan lama ke server DB eksternal) meningkat. Saya tidak tahu pasti tapi saya kira jaringan IO dapat menyebabkan CPU menunggu untuk naik? Adakah yang bisa mengkonfirmasi?
sumber
Bisa jadi perangkat loopback, yang dengan sendirinya dipasang melalui jaringan.
sumber
Di komputer saya NFS adalah "produser" IO-WAIT terbesar. Saya memiliki SSD di laptop saya yang sangat cepat, jadi "IO nyata" bukan masalahnya. Namun demikian saya kadang-kadang memiliki banyak IO menunggu karena saham nfs yang saya pasang.
SCP kadang-kadang juga tampaknya mengarah ke IO Tunggu tetapi untuk perpanjangan yang jauh lebih rendah.
sumber
Ini bisa apa saja. Ini berarti ada sesuatu yang menunggu akhir dari operasi I / O. Anda dapat mengetahui proses apa itu via ps, lalu pasang gdb padanya dan periksa backtrace untuk menentukan panggilan mana yang hang (biasanya ini adalah beberapa hal yang berhubungan dengan jaringan atau disk yang tiba-tiba terputus). Untuk info fd, lihat / proc.
sumber
Saya juga mengalami masalah serupa tepat sebelum disk di RAID gagal dan beberapa kabel SATA dengan tikungan ketat di dalamnya mulai gagal.
Penggunaan CPU mendekati 0%, tetapi 1 atau lebih CPU pada sistem 4-core menghabiskan 100% waktu mereka di IOunggu untuk jangka waktu yang lama (ditemukan melalui
top
layar cpu multi-line) dengan IOps dan bandwidth yang sangat rendah (ditemukan viaiostat
), tetapi aktivitas interupsi tinggi bursty. Penggunaan baris perintah interaktif terasa menyakitkan selama akses disk apa pun (mis. Penyelamatan otomatis dariemacs
sesi seseorang ) tetapi sebaliknya dapat ditoleransi begitu periode IOwait berlalu (dan mungkin operasi berhasil setelah banyak percobaan ulang).sumber