BSOD 0x09c pada 50 mesin SuperMicro

8

Untuk sebuah proyek, kami memiliki 50 server yang semuanya dilengkapi dengan (umumnya) perangkat keras yang sama. Masalah yang kami miliki di sini sangat serius dan terjadi pada semua mesin. Meskipun banyak upaya dan menghubungi produsen dan pengembang perangkat lunak setiap orang saling menunjuk satu sama lain dan bahkan menolak memberi saya petunjuk tentang apa yang sedang terjadi.

Pertama-tama izinkan saya menjelaskan pengaturannya. Ini adalah perangkat keras 'servergrade'. Untuk pengalaman pertama saya, servergrade adalah kekecewaan terbesar dalam hidup saya.

  • SuperMicro X10SDV-8C + -LN2F
  • Intel Xeon D-1540 (tertanam pada motherboard)
  • Kasing 1U atau Kaset SuperMicro yang dirancang khusus
  • 480 watt server PSU atau SuperUicro PSU 200 watt asli
  • Samsung Evo 850 500 GB SSD
  • 32 GB DDR4-2133 ECC atau NON-ECC (tetapi tidak tercampur di server yang sama)
  • Asus GT730 GPU 4GB DDR3
  • GPU dipasang dengan kartu riser PCIe (bukan pita), tanpa nama dari Cina atau SuperMicro asli

Berjalan pada sistem - Windows Server 2012 R2 Enterprise - VMWare Workstation 12 - VM menjalankan tugas-tugas intensif GPU - Sistem ini stok, tidak ada overclocking di semua

Gejala - Acak BSOD 0x09c (alias Machine_Check_Exception): kadang-kadang sistem berjalan selama seminggu tanpa masalah, kadang-kadang macet setelah hanya 10 menit, tetapi sebagian besar waktu berjalan selama beberapa jam.

Sudah dicoba / dicentang:

  • BIOS diperbarui ke versi terbaru (saya akan berpikir sekarang bahwa ini meningkatkan waktu untuk sistem menjadi stabil, tetapi itu bisa saja acak).
  • Windows diperbarui ke versi terbaru.
  • VMWare diperbarui ke versi terbaru.
  • Mengganti semua komponen dan mencoba setiap opsi yang berbeda, bahkan mencoba desktop ATX PSU dan M.2 SSD.
  • Menginstal semua sistem dari awal dengan Ubuntu. Saya tidak terbiasa dengan Linux dan belum pernah melihat BSOD Linux dan saya masih belum karena sistem server tanpa kepala dan saya mencoba ini di DC. HASIL: sistem akan hang dan setelah reboot Linux melaporkan crash XORG (terkait GPU).
  • Mengubah pengaturan GPU di BIOS menjadi 'Above 4G', sisa BIOS adalah bawaan pabrik.

Juga informatif:

  • Sistem terletak di pusat data. Suhu, udara, daya, dan jaringan optimal.
  • Suhu jauh di bawah maksimum pabrik
  • Kami memiliki pengaturan perangkat lunak yang sama persis yang berjalan di komputer desktop (dengan perangkat keras desktop). Sistem ini dapat berjalan dengan baik dengan 1 dari 100 kerusakan komputer setiap bulan.
  • Saya telah menghubungi VMWare, katakanlah ini adalah masalah perangkat keras
  • Saya telah menghubungi SuperMicro, mereka mengatakan apa-apa kecuali beberapa hal dan sudah mencoba dan juga bahwa ini masih bisa menjadi masalah perangkat lunak.

Kami putus asa di sini. Aplikasi yang kami jalankan untungnya agak berlebihan. Jika server dan VM-nya turun, bukan masalah seperti itu, server lain akan mengambil alih beban dalam 5 menit, tetapi pada tingkat ini saya harus online sepanjang hari untuk me-restart server.

Saya memiliki pengetahuan hardware yang besar tetapi ini sudah lewat, saya sudah mencari ini sepanjang hari selama lebih dari sebulan mencoba segala macam hal yang berbeda. Fakta bahwa motherboard ini digunakan dengan penyedia hosting dalam skala besar membuat saya curiga bahwa board itu sendiri ok. Ini jelas bukan masalah perangkat keras khusus untuk RMA karena semua 50 papan memiliki gejala yang sama. Satu-satunya hal yang berbeda dengan kami adalah GPU. Ini bersamaan dengan eksperimen Linux membuat saya curiga bahwa ini pasti sesuatu di jalur PCIe. GPU itu sendiri stabil di desktop mobo. Meskipun memiliki kapasitas memori yang besar, ini adalah GPU kecil yang tidak membutuhkan banyak daya. Saya akan curiga kartu riser Cina, tetapi sekali lagi kami juga menggunakan riser SuperMicro bersertifikat dan mereka tidak menunjukkan perbaikan sama sekali.

Saya sangat ingin menemukan solusi di sini. Ini akan mulai dengan menentukan penyebab pastinya. Kami bersedia membayar hadiah bagus kepada seorang ahli yang dapat menganalisis beberapa dump dan memberi kami lebih banyak detail (atau lebih baik lagi, sebuah solusi).

Salam,

Simon

pengguna349749
sumber
Saya agak akrab dengan papan ini, memiliki sendiri ... Ada terlalu banyak bagian yang bergerak di sini dan terlalu sedikit penjelasan tentang apa itu. Apa gunanya VMware Workstation? Aplikasi apa yang sedang dijalankan di dalamnya? Bagaimana GPU diteruskan ke VM?
Michael Hampton
VM menjalankan perusahaan Windows yang membutuhkan beban GPU. Saya tidak bisa menguraikan ini lebih jauh. Ini adalah VMWare Workstation, GPU divirtualisasi. Ini juga seharusnya tidak terlalu penting, ia bekerja persis sama pada perangkat keras desktop tanpa masalah.
user349749
Itu penting karena Anda tidak menjalankannya pada perangkat keras desktop!
Michael Hampton
2
Saya menduga ada ketidakcocokan antara motherboard Anda dan GPU Anda. Dengan sedikit keberuntungan, itu mungkin sesuatu yang bisa diperbaiki di BIOS, tapi saya tidak akan bertaruh banyak untuk itu. Karena ini dapat direproduksi dengan kernel Linux persediaan, saya akan mencoba untuk mendapatkan informasi lebih lanjut tentang kepanikan kernel yang mungkin terjadi.
Law29
Apa yang berjalan di dalam VM tidak masalah. Bisa jadi merender porno atau mungkin logaritm untuk menemukan obat untuk bantuan. Yang penting itu adalah beban GPU standar. @ Law29; Itulah yang saya rasakan. Linux tidak benar-benar memberi saya kepanikan Kernel saya pikir. Server tidak menabrak, hanya GUI.
user349749

Jawaban:

2

Nah ini super terlambat, saya membayangkan masalah ini diselesaikan pada titik ini? Bagaimanapun 0x9C biasanya berarti kesalahan perangkat keras MCE, sistem GPU kami menjalankan linux sebagai os host yang melaporkan kesalahan ini sedikit lebih bertele-tele daripada windows.

Bagaimanapun, ini muncul secara acak untuk kami pada perangkat keras yang sama yang dibuat oleh HP beberapa waktu yang lalu, itu berakhir dengan pengiriman daya yang tidak mencukupi ke GPU. Khususnya 75W yang seharusnya dipasok oleh port PCIe itu sendiri.

Kami mengonfirmasinya dengan multimeter pada papan pelarian PCIe. Tegangan turun ketika kartu jaringan GPU dan 10Gbe terpukul keras pada saat yang sama. Sementara motherboard mampu memberikan 75W ke slot x16, bagian pengiriman daya sedikit kesulitan ketika kartu lain semua mengkonsumsi daya.

Riser mungkin dicurigai di sini dan menjatuhkan voltase pada beban arus tinggi.

TriadicTech
sumber
0

Terima kasih untuk balasan Anda. Sekarang 3 tahun kemudian. Supermicro telah menolak untuk membantu kami dengan segala cara yang mungkin. Kami mengirim beberapa mesin (persis seperti yang kami buat). Menurut mereka, mereka menguji mereka selama berminggu-minggu dan mereka tidak pernah jatuh.

Sedangkan untuk riser, kesalahan yang sama terjadi dengan GPU langsung di slot.

Supermicro terus menyalahkan VMWare, sesuatu yang saya percayai sampai saya mendapatkan rilis baru dari dewan yang sama. Tanpa komentar dari Supermicro, papan dengan Xeon D-1540 telah diperbarui dengan Xeon D-1541 setelah beberapa bulan. Papan baru ini pada dasarnya sama dengan CPU yang lebih baru (juga kecepatan clock yang sedikit lebih tinggi). Papan yang diperbarui juga dilengkapi dan tajuk kipas ekstra.

Papan ini tidak lagi macet. Pada beban yang sama persis mereka akan berjalan selama berbulan-bulan tanpa masalah. Saya bahkan mengkloning mesin di sini, mereka menjalankan perangkat keras dan lunak yang tepat.

Jenis ini menegaskan kecurigaan saya. Supermicro tahu ada masalah dengan papan tetapi tidak ingin memberi tahu saya mengapa karena saya berakhir dengan hampir 100 papan ini menjadi tidak berguna karena tabrakan. Mereka tidak pernah dan RMA atau memperbaiki bahkan tidak memperbarui BIOS untuk itu jadi pasti ada sesuatu di papan tulis.

Tak perlu dikatakan, ini adalah pertama dan terakhir kalinya saya bersama Supermicro. Ini bisa terjadi pada merek merek apa pun, tetapi dukungannya di bawah nol.

Simon Allais
sumber