ReFS / ruang penyimpanan drive dijatuhkan di bawah beban berat

8

Saya memiliki workstation Windows 10 yang digunakan dalam bisnis saya untuk hal-hal seperti pemrosesan gambar (Photoshop) dan pengembangan perangkat lunak (Eclipse). Ini adalah komputer berbasis i7-2600K, motherboard Gigabyte GA-B75M-D3H B75, RAM 16 GB. OS ada pada Samsung 850 pro SSD, ada lagi 850 pro untuk data, WD Black untuk data, ditambah dua drive 4GB HGST masing-masing pada port SATA 3, ReFS yang diformat, dalam cermin ruang penyimpanan. Array memiliki 1,63GB yang digunakan, gratis 1,99GB.

Baru-baru ini drive ReFS di cermin ruang penyimpanan mulai menurun - sejauh ini tiga kali dalam sebulan. Ini biasanya terjadi di bawah beban sedang hingga berat, setelah periode yang diperpanjang. Tak satu pun dari disk lain jatuh di bawah beban sejauh yang saya tahu, jadi saya menganggap itu ReFS, Storage Spaces, atau masalah dengan disk yang mendasarinya. Reboot membuat disk online.

Saya dapat melihat kesalahan pada penampil acara seperti yang di bawah ini. Ini tidak semuanya di satu tempat, dan sementara ada area log NTFS dan Storage Spaces di bawah "aplikasi dan layanan log -> microsoft -> windows" sepertinya tidak ada satu untuk ReFS.

Saya menghargai bantuan melacak apa yang menyebabkan masalah ini, dan menyelesaikannya, sehingga sistem saya tetap menyala.

16:27.05 (under event viewer -> application and services log -> microsoft -> windows -> storagespaces-driver-operationsl
Virtual disk {26bf58b3-1cb9-4b93-a945-1b89331bb565} requires a data integrity scan.                                    
Data on the disk is out-of-sync and a data integrity scan is required.                  To start the scan, run the following command:                  

Get-ScheduledTask -TaskName "Data Integrity Scan for Crash Recovery" | Start-ScheduledTask                  

Once you have resolved the condition listed above, you can online the disk by using the following commands in PowerShell:                  

Get-VirtualDisk | ?{ $_.ObjectId -Match "{26bf58b3-1cb9-4b93-a945-1b89331bb565}" } | Get-Disk | Set-Disk -IsReadOnly $false                  
Get-VirtualDisk | ?{ $_.ObjectId -Match "{26bf58b3-1cb9-4b93-a945-1b89331bb565}" } | Get-Disk | Set-Disk -IsOffline  $false

16:27.05 (windows system event log): The file system was unable to write metadata to the media backing volume R:. A write failed with status "A device which does not exist was specified." ReFS will take the volume offline. It may be mounted again automatically.
16:27.06 (windows system event log): The file system detected a checksum error and was not able to correct it. The name of the file or folder is "<unable to determine file name>".
18:35.50 (windows system event log): Failed to connect to the driver: (-2147024894) The system cannot find the file specified. 
18:35.50 (Kernel PNP) The driver \Driver\WudfRd failed to load for the device SWD\WPDBUSENUM\_??_USBSTOR#Disk&Ven_Generic&Prod_STORAGE_DEVICE&Rev_9451#7&2a9fd895&0#{53f56307-b6bf-11d0-94f2-00a0c91efb8b}.

18:35.58: Virtual disk {26bf58b3-1cb9-4b93-a945-1b89331bb565} could not be repaired because there is not enough free space in the storage pool.                  
Replace any failed or disconnected physical disks. The virtual disk will then be repaired automatically or you can repair it by running this command in PowerShell:                  
Get-VirtualDisk | ?{ $_.ObjectId -Match "{26bf58b3-1cb9-4b93-a945-1b89331bb565}" } | Repair-VirtualDisk

DIPERBARUI saat yagmoth menunjukkan kesalahan ini termasuk sesuatu tentang USB. Skenario di mana saya mengingat kesalahan ini terjadi adalah a) Saat mencadangkan ke disk USB eksternal b) Saat menjalankan cadangan CrashPlan ke disk SATA internal lain

Tim
sumber
1
antivirus dihapus jika itu masalah kompatibilitas windows 10? karena MCcee seperti mendapat masalah dengan upgrade ulang tahun
yagmoth555
@ yagmoth555 Saya bisa mencobanya, saya kira, tapi sepertinya tidak terlalu mungkin bagi saya. Saya cukup tertarik dengan cara memecahkan masalah itu sendiri, daripada menebak dan memeriksa.
Tim
Sayangnya tanpa log lagi saya curiga ada masalah hardware di bawahnya. Karena ide AV adalah tes yang mudah, seolah-olah mirror Anda tidak dapat menangani IO, driver AV pada akses / tulis tidak membantu (karena memperlambat IO Anda dengan menginstal driver di antaranya) Jika Anda ingin menyelidiki tanpa pengujian / kesalahan Anda bisa mencoba pemantau proses untuk mencatat semuanya. Jika semua gagal, saya akan mencoba untuk menghapus mirroring untuk menguji lagi setelah (tetapi tes itu masih merupakan tes / tes kesalahan sedih). Mohon perbarui kami dengan log pemantauan
yagmoth555
Bisakah saya bertanya apakah mirror Anda selesai dengan disk usb? sebagai status kernel kernel driver usb
yagmoth555
Kedua disk menggunakan SATA 3Gbps. Spotting yang bagus tentang kesalahan USB. Pertanyaan diperbarui. Saya tidak di mesin selama seminggu atau lebih, tetapi saya akan mencoba untuk memicu lagi dan melihat apakah log berbeda. ProcessMonitor tampak seperti itu akan menghasilkan massa log, tapi saya akan mencobanya kadang-kadang terima kasih.
Tim

Jawaban:

2

Ruang penyimpanan tampaknya sangat sensitif untuk menulis latensi: jika terlalu banyak lonjakan, volume dapat turun.

Ini sepertinya masalah yang diketahui saat menggunakan SSD konsumen, seperti yang dapat Anda temukan di sini

shodanshok
sumber
Terima kasih atas informasinya. Disk ReFS / Storage Space saya adalah hard drive 4TB HGST, bukan SSD. SSD saya menjalankan NTFS. Tulisan latensi itu menarik.
Tim
1

Pertama, Anda benar-benar harus memeriksa HCL. Saya berani bertaruh makan malam yang menyenangkan, tidak ada yang Anda sebutkan di Storage Spaces HCL. Seperti vSAN, Windows dan Spaces Penyimpanan memiliki HCL yang sama sekali berbeda. Saya dapat mengatakan tanpa melihat drive Anda, bahwa tidak satupun dari mereka akan berada di HCL, karena tidak satupun dari mereka adalah drive kelas perusahaan.

Jika Anda menginginkan solusi yang stabil, dapatkan kartu LSI SAS (non-RAID), dapatkan HDD SATA perusahaan dan dapatkan SSD seri Intel dc. Apakah itu mahal? Ya. Apakah ini dapat diandalkan? Sebanyak Windows bisa ketika datang ke penyimpanan (yang tidak bagus).

Saya, saya membuang ruang penyimpanan dan kembali ke kartu LSI RAID. Pergi dari korupsi data setiap minggu ke penyimpanan padat selama lebih dari dua tahun pada perangkat keras yang sama. Dan saya memiliki SEMUA kit tingkat perusahaan yang ada di HCL.

Anda dapat menemukan Daftar Kompatibilitas Perangkat Keras (HCL) di sini https://www.windowsservercatalog.com/results.aspx?&chtext=&cstext=&csttext=&chbtext=&bCatID=1642&cpID=0&avc=10&ava=0&av==&P=

Eric C. Singer
sumber
1
Terima kasih atas pemikiran Anda, Eric. Mungkin Anda dapat mengedit posting Anda untuk memperluas "HCL" karena saya tidak tahu apa artinya, dan tidak akan orang lain membaca posting ini. Saya pikir inti RAID perangkat lunak seperti ruang penyimpanan adalah untuk menghindari kebutuhan akan solusi kelas perusahaan yang mahal. Saya tidak yakin jawaban Anda "membuangnya dan membeli yang lain" benar-benar menjawab pertanyaan saya.
Tim
Lihat komentar saya, HCL = perangkat keras yang disertifikasi untuk berfungsi dalam istilah awam. RAID RAID tidak sama atau berarti Anda dapat berhemat pada HW tingkat perusahaan, itu berarti Anda memiliki fleksibilitas dari solusi berbasis SW.
Eric C. Singer
... dan berhenti menggunakan ReFS, kembali ke NTFS. rasanya jauh lebih matang daripada ReFS. ReFS memiliki banyak janji, tetapi juga memiliki banyak hal yang harus dilakukan.
Eric C. Singer
Saya menulis seluruh posting blog di Storage Spaces BTW, memulai seri tetapi menyerah karena IMO, itu POS. Seperti kebanyakan solusi MS, setengahnya dipanggang. ericcsinger.com/backup-storage-part-5-realization-of-a-failure Kami beralih kembali ke kartu RAID dan tidak memiliki masalah sejak itu. Karena Anda menggunakan mirroring, Anda akan lebih baik menyiapkan beberapa skrip robocopy untuk menyalin data dari satu disk ke disk lain. Lebih mudah untuk memecahkan masalah dan mungkin lebih dapat diandalkan, dan itu akan memungkinkan Anda untuk menyimpan disk kelas konsumen Anda.
Eric C. Singer
1
Yang mengatakan, karena Anda mirroring disk Anda, Anda bisa mengusir satu disk, memformatnya dengan NTFS dan menyalin data Anda ke sana. Saya akan sangat menyarankan terhadap ruang penyimpanan, karena masalah yang Anda lihat tidak sebanyak yang ReFS, karena ini adalah ruang penyimpanan. Apa pun yang berkaitan dengan disk yang diusir atau muncul sebagai gagal terkait dengan ruang penyimpanan .. Jika Anda hanya berusaha menjaga disk Anda tetap sinkron sehingga Anda memiliki replika lokal, robocopy adalah cara termudah untuk melakukannya, itu hanya bukan real time.
Eric C. Singer