Отключения устройства nvme - I/O 0 QID 0, тайм-аут, контроллер отключен

У нас есть 6 одинаковых серверов Supermicro (или очень похожих спецификаций). За последние две недели один из них случайно сбрасывал диск NVMe из-за:

[ 66.856719] nvme 0000:03:00.0: I/O 0 QID 0 timeout, disable controller [ 66.957911] nvme 0000:03:00.0: Identify Controller failed (-4) [ 66.957961] nvme 0000:03:00.0: Removing after probe failure status: -5

Мы попробовали:

  • Обмен диска
  • Замена кабелей NVMe
  • Замена контроллера NVMe (материнская плата)
  • Обмен задней панели
  • Понижение версии ядра 4.5.0 до 4.4.2 с учетом последних изменений в подсистеме хранения
  • Обновление прошивок дисков и материнских плат
  • Замена материнской платы

Так что это по сути совершенно новый сервер, за исключением того, что мы не сделали переустановку - почему? Потому что я хочу понять проблему, и если переустановить ее, мы никогда не узнаем, почему это происходит на этой машине, а не на других 5.

  • Нет ошибок SMART или nvme-cli на диске, когда он работает.
  • Если диск переставлен в другой отсек, он работает нормально, и какой бы диск ни был вставлен в этот отсек, в конечном итоге происходит сбой / сбой.

  • CentOS 7 (установлены последние исправления)

  • Ядро 4.5.0
  • 2x Intel DC3600 NVMe (2,5" FF)
  • Чипсет серии Intel C610/X99
  • Полный lspci -tvv вывод: https://gist.github.com/sammcj/8839c536b2cf6d4def8d2572eb1b4e8a
  • Полная конфигурация ядра: https://gist.github.com/sammcj/7d1e79775bf984424b92679d16c015c6

2 ответа

У меня был похожий сбой с дисками Intel P4600 (отличающимися от ваших), решение от Intel для нашего случая было редкой прошивкой с элементами действий для замены определенных дисков и обновления прошивки до последней версии на всех оставшихся дисках. YMMV.

Полученная ошибка означает, что накопитель находится на уровне PCIe и даже может взаимодействовать с ним на некотором базовом уровне NVMe, но он не может завершить полную инициализацию из-за внутреннего утверждения на диске (опять же, на основании результатов FA для наших накопителей, это может отличаться для вас).

Позвоните в службу поддержки Supermicro или используйте совершенно другой сервер.

Вы сделали больше проблем, чем большинство, и определенно выполнили все разумные шаги под вашим контролем.

Оборудование Supermicro является относительно дешевым и не обеспечивает такой же уровень полировки, как у систем Dell или HP. Так что возьмите его у кого-то, кто видел большие развертывания Supermicro в масштабе... У вас может быть просто неудача.

Другие вопросы по тегам