Penghapusan snapshot sangat lambat

13

Saya memiliki kotak ESXi dengan penyimpanan HP LeftHand yang diekspos melalui iSCSI.

Saya memiliki mesin virtual dengan disk 1TB, yang dikonsumsi oleh 800GB. Disk tebal disediakan pada penyimpanan LeftHand.

Sebuah snapshot terbuka di VM (sehingga Veeam Backup and Recovery dapat melakukan tugasnya), dan terbuka selama sekitar 6 jam. Disk delta sekitar 5GB dibuat selama ini.

Penghapusan snapshot sekarang telah memakan waktu lebih dari 5 jam, dan masih belum selesai. Array penyimpanan melaporkan hampir tidak ada IOPS pada array itu (sekitar 600, yang merupakan kebisingan latar belakang), tidak ada throughput (sekitar 8MB / detik, yang lagi - kebisingan latar belakang), kedalaman antrian rata-rata 9.

Dengan kata lain, proses konsolidasi snapshot sepertinya tidak terikat IO, saya tidak bisa melihat apa pun yang menyebabkan penghapusan snapshot menjadi sangat lambat. Hal ini bekerja, dilihat menonton file delta.

Apa lagi yang harus saya perhatikan mengapa snapshot (relatif kecil) ini begitu lambat untuk dihapus?


Sesuai dokumentasi VMWare , saya menonton ls -lh | grep -E "delta|flat|sesparse"sekarang, dan saya melihat dua file delta yang berubah:

-rw-------    1 root     root      194.0M Jun 15 01:28 EXAMPLE-000001-delta.vmdk
-rw-------    1 root     root      274.0M Jun 15 01:27 EXAMPLE-000002-delta.vmdk

Saya menyimpulkan bahwa satu file snapshot sedang dikonsolidasikan sementara yang lain mengumpulkan delta selama proses konsolidasi. Kemudian yang baru dikonsolidasikan, dan delta lain dibuat selama proses itu.

Ukuran file yang menjatuhkan dengan setiap iterasi (baik, paling iterasi), jadi saya berasumsi bahwa akhirnya prosedur konsolidasi ini akan menyelesaikan (mungkin aku harus mengambil VM off jaringan selama 30 menit untuk membiarkan menyelesaikan ini tanpa menghasilkan perubahan apapun) .

Butuh sekitar 2 menit per seratus megta delta untuk melakukan konsolidasi. Ini tentu tidak pernah terjadi sebelumnya. Penghapusan snapshot di bawah cadangan Veeam yang normal membutuhkan waktu sekitar 40 menit (jadi tentu saja tidak cepat, tetapi tidak lambat).


Setelah 6 jam dan 2 menit, foto itu akhirnya dihapus. Namun saya masih ingin tahu apakah ada cara Anda biasanya akan memecahkan masalah seperti ini (di luar kinerja penyimpanan).

Mark Henderson
sumber
Saya tidak dapat membantu memperhatikan bahwa 8Mbit / detik cukup dekat dengan jaringan 10Mbit / detik dikurangi beberapa overhead. Adakah kemungkinan ini adalah masalah terkait jaringan pada tautan iSCSI - lead patch yang cerdik baru saja mulai gagal? Apakah itu tautan tunggal, satu host, apakah host sebaliknya melakukan OK untuk berkelanjutan membaca / menulis? Bisakah Anda memeriksa port switch untuk kesalahan?
TessellatingHeckler
@ TessellatingHeckler Saya baru saja melakukan beberapa tes dan saya masih bisa mendapatkan sekitar 1.5Gbit / sec secara berurutan dari array, yang adalah apa yang saya harapkan dari dalam keadaan normal. Tadi malam pemindahan snapshot memakan waktu tiga menit yang merupakan yang tercepat yang pernah saya lihat (biasanya sekitar 10x selama itu, tapi ada pertandingan sepakbola besar di sini tadi malam jadi saya curiga tidak ada yang menggunakan sistem setelah jam kerja ketika backup berjalan, maka delta kecil dan waktu komit kecil). Jadi itu bisa dilakukan dengan cepat, hanya sekali saja tidak.
Mark Henderson
Hmm. Apakah Anda memiliki VMware Storage IO Control yang berjalan, dan apakah datastore dibagikan dengan VM lain? Apakah ada kemungkinan ia mencapai beberapa pembatasan / soft limit di sana, tanpa menekankan perangkat host atau SAN?
TessellatingHeckler
Versi ESXi dan vCenter?
Nils
@Nils 5.5 untuk keduanya
Mark Henderson

Jawaban:

2

Ini adalah pemahaman saya bahwa penghapusan snapshot ESXI dapat (dan biasanya tidak) memakan waktu lama. Sebelum snapshot dapat dihapus, perubahan dari snapshot lama harus ditulis ke snapshot berikutnya secara berurutan. Saya diajarkan untuk selalu menghapus snapshot dari yang tertua hingga yang terbaru untuk membantu proses ini berjalan secepat dan seefisien mungkin.

Secara alami, semakin banyak perubahan di antara foto, semakin lama penggabungan akan dilakukan.

Andrew Meyer
sumber
1
Benar, kecuali 6 jam untuk menghapus snapshot 5GB tidak masuk akal. Seperti yang saya sebutkan, biasanya butuh sekitar 40 menit untuk menghapus snapshot, dan saya bahkan merasa bahwa 40 menit terlalu lambat. Ini adalah satu-satunya snapshot pada VM itu, dan juga penghapusan snapshot telah berubah dalam versi ESXi yang lebih baru dalam urutan bahwa mereka dihapus tidak terlalu banyak masalah.
Mark Henderson
2
Saya telah melihat perilaku snapshot lambat sebelumnya dengan sedikit I / O pada penyimpanan tetapi tidak pernah ditelusuri ke penyebabnya. Saya selalu hanya berasumsi hypervisor mengunyah delta di memori. (Mesin yang dimaksud menggunakan penyimpanan yang terpasang langsung atau saya mungkin telah melihat masalah SAN juga, tapi saya selalu menandainya dengan delta besar atau kode yang tidak dioptimalkan dalam subsistem snapshot VMWare).
voretaq7