Отключения устройства nvme - I/O 0 QID 0, тайм-аут, контроллер отключен
У нас есть 6 одинаковых серверов Supermicro (или очень похожих спецификаций). За последние две недели один из них случайно сбрасывал диск NVMe из-за:
[ 66.856719] nvme 0000:03:00.0: I/O 0 QID 0 timeout, disable controller
[ 66.957911] nvme 0000:03:00.0: Identify Controller failed (-4)
[ 66.957961] nvme 0000:03:00.0: Removing after probe failure status: -5
Мы попробовали:
- Обмен диска
- Замена кабелей NVMe
- Замена контроллера NVMe (материнская плата)
- Обмен задней панели
- Понижение версии ядра 4.5.0 до 4.4.2 с учетом последних изменений в подсистеме хранения
- Обновление прошивок дисков и материнских плат
- Замена материнской платы
Так что это по сути совершенно новый сервер, за исключением того, что мы не сделали переустановку - почему? Потому что я хочу понять проблему, и если переустановить ее, мы никогда не узнаем, почему это происходит на этой машине, а не на других 5.
- Нет ошибок SMART или nvme-cli на диске, когда он работает.
Если диск переставлен в другой отсек, он работает нормально, и какой бы диск ни был вставлен в этот отсек, в конечном итоге происходит сбой / сбой.
CentOS 7 (установлены последние исправления)
- Ядро 4.5.0
- 2x Intel DC3600 NVMe (2,5" FF)
- Чипсет серии Intel C610/X99
- Полный
lspci -tvv
вывод: https://gist.github.com/sammcj/8839c536b2cf6d4def8d2572eb1b4e8a - Полная конфигурация ядра: https://gist.github.com/sammcj/7d1e79775bf984424b92679d16c015c6
2 ответа
У меня был похожий сбой с дисками Intel P4600 (отличающимися от ваших), решение от Intel для нашего случая было редкой прошивкой с элементами действий для замены определенных дисков и обновления прошивки до последней версии на всех оставшихся дисках. YMMV.
Полученная ошибка означает, что накопитель находится на уровне PCIe и даже может взаимодействовать с ним на некотором базовом уровне NVMe, но он не может завершить полную инициализацию из-за внутреннего утверждения на диске (опять же, на основании результатов FA для наших накопителей, это может отличаться для вас).
Позвоните в службу поддержки Supermicro или используйте совершенно другой сервер.
Вы сделали больше проблем, чем большинство, и определенно выполнили все разумные шаги под вашим контролем.
Оборудование Supermicro является относительно дешевым и не обеспечивает такой же уровень полировки, как у систем Dell или HP. Так что возьмите его у кого-то, кто видел большие развертывания Supermicro в масштабе... У вас может быть просто неудача.