Одинаковые проблемы с жестким диском в dmesg на нескольких серверах
У нас есть пара таких устройств SuperMicro MicroCloud.
Всего у нас есть 16 серверов (2х8), которые все случайным образом извергают эти сообщения в dmesg:
[4661350.802707] ata2.00: failed command: WRITE FPDMA QUEUED
[4661350.802734] ata2.00: cmd 61/00:28:00:d0:fc/04:00:0f:00:00/40 tag 5 ncq 524288 out
[4661350.802735] res 40/00:0c:00:f8:fc/00:00:0f:00:00/40 Emask 0x10 (ATA bus error)
[4661350.802821] ata2.00: status: { DRDY }
Кажется, что все хорошо, даже из-за ошибок, но игнорировать их кажется очень неправильным. Это происходит в основном в периоды высокой активности диска.
На одном сервере он случайно останавливался даже во время высокой активности диска.
Поиск в Google позволяет предположить, что это может быть из-за ослабленных разъемов или сбоев дисков, но это происходит на 16 различных серверах даже с различными типами жестких дисков (восемь используют диски WD Black SATA 7200 об / мин, а еще восемь используют VelociRaptors 10000 об / мин).
Мы попробовали использовать два разных ядра Linux: 2.6.32 (Debian Squeeze) и 3.2.44 (Debian Wheezy).
Поставщик сервера предлагает обновить BIOS до новейшей версии, но мы уже запускаем его.
Так что теперь мы застряли:) Кто-нибудь есть предложение?
Полный dmesg: http://pastebin.com/Z9k1kXbc
Обновление: matpol указал мне на вопрос AskUbuntu, где упоминаются дефектные чипсеты Intel. Теперь я беспокоюсь, что это затронуло нас, хотя это было обнаружено еще в 2011 году. (Серверы были построены в Q42012, но SuperMicro мог иметь старую партию 2011 года - они производят свои собственные материнские платы).
"lspci" дает мне это:
00:00.0 Host bridge: Intel Corporation Sandy Bridge DMI2 (rev 07)
00:1f.2 SATA controller: Intel Corporation Patsburg 6-Port SATA AHCI Controller (rev 06)
В статье в софтпедии упоминается, что затронуто "rev04". Должен ли я собрать из "Rev 07" в lspci, что мы не затронуты?
В сообщениях об ошибках Intel за июнь 2013 года упоминались некоторые похожие проблемы:
Из-за проблем с схемотехникой в наборах микросхем Intel 6 серии и Intel C200 серии износ срока службы может повлиять на распределение тактовой частоты для портов SATA 2-5. Со временем это может проявиться как функциональная проблема на портах SATA 2-5.
Чипсеты называются "Чипсет Intel® Q67", "Чипсет Intel® Q65" и т. Д. Как я могу узнать, какой тип чипсета (названный так) у меня из командной строки Debian?
Обновление: я думаю, что теперь я нашел правильные ошибки для чипсета. (Это BD82C602J). Кажется, ничего особенного там нет.
1 ответ
Это, конечно, выглядит как проблема с контроллером для меня. Надеюсь, у вас остались гарантии. Это ошибка шины, а не не отвечающий диск, как это обычно бывает с неисправными платами контроллера дисков и дополнительными кабелями (или объединительными платами); похоже, это системная плата.
Вы также можете попробовать перепрограммировать BIOS (даже с той же версией), чтобы исключить какое-либо повреждение BIOS.
Я считаю, что результатом этого является просто сброс и продолжение, так что вам может не о чем беспокоиться, хотя это отрицательно скажется на производительности. Это может также ухудшиться со временем.