Пул ZFS постоянно ДЕГРАДИРОВАН или НЕИСПРАВЕН

у меня есть бассейнс 5 дисками в нем. Я не уверен, когда именно, но внезапно все диски перестали быть всегдабез ошибок чтения, записи или контрольной суммы, чтобы случайно выплеснуть всевозможные проблемы.

          NAME                                            STATE     READ WRITE CKSUM
    Data                                            DEGRADED     0     0     0
      raidz1-0                                      DEGRADED   149   185     0
        gptid/905fe084-a003-11e9-9d12-000c29c8a62a  DEGRADED    57   127     5  too many errors
        gptid/2b75693a-9f09-11e9-8310-000c29c8a62a  ONLINE       7     5     5
        gptid/b8b4dd8f-82e9-11eb-b23f-000c29c8a62a  DEGRADED    70   171     5  too many errors
        gptid/b88beac0-e1f3-11e7-aeb0-000c29c8a62a  DEGRADED    51     6    14  too many errors
        gptid/4eb702b3-e2c3-11e7-9896-000c29c8a62a  FAULTED      8    13     2  too many errors

Я выполнил некоторые основные действия по устранению неполадок:

  • SMART показывает, что все в порядке (кроме температуры, превышающей желаемую, в диапазоне 40C). Итак, диски выглядят так, будто они в хорошей форме. Никаких поврежденных секторов, никаких ожидающих секторов, ничего необычного. На данный момент все диски вращаются уже около 3 лет.
  • Каждый из дисков подключен непосредственно к материнской плате через отдельные разъемы SATA. Я переподключил и заменил кабели SATA, но безуспешно.

В какой-то момент я заменил 3-й диск в пуле. В то время он выдавал больше всего ошибок и всегда мог первым перейти в состояние DEGRADED. Я заменил его на новый диск, и он работает уже несколько месяцев, сразу же обнаружив ту же проблему, что и остальная часть пула.

Даже после, часов через 5 у меня было следующее состояние.

          NAME                                            STATE     READ WRITE CKSUM
    Data                                            DEGRADED     0     0     0
      raidz1-0                                      DEGRADED     1     0     0
        gptid/905fe084-a003-11e9-9d12-000c29c8a62a  ONLINE       2     4     0
        gptid/2b75693a-9f09-11e9-8310-000c29c8a62a  ONLINE       0     0     0
        gptid/b8b4dd8f-82e9-11eb-b23f-000c29c8a62a  FAULTED      1    11     0  too many errors
        gptid/b88beac0-e1f3-11e7-aeb0-000c29c8a62a  ONLINE       1     1     0
        gptid/4eb702b3-e2c3-11e7-9896-000c29c8a62a  ONLINE       1     6     0

Я не совсем понимаю, что здесь происходит и где еще искать.

Не знаю, совпадение ли это, но я заметил, что это начало происходить после обновления пула ZFS в рамках одного из обновлений FreeNAS (думаю, это была 11.2U - тоже да, я использую FreeNAS)

Единственное, о чем я могу подумать, это плохой контроллер SATA. Но прежде чем я перейду к этому, могу ли я еще что-нибудь устранить? Это для домашнего сервера для хобби, и замена контроллера по сути означает создание совершенно нового сервера, поэтому я бы хотел этого избежать, если это возможно. И, к сожалению, портов PCIe для установки внешнего контроллера не осталось.

Заранее спасибо!

1 ответ

После почти месяца отладки можно с уверенностью сказать, что это действительно был SATA-контроллер чипсета.

@shodanshok обратил мое внимание на то, что существует «серьезная проблема с SATA, связанная с возрастом» чипсетов Intel, и дополнительный поиск в Google показал, что я был не единственным.

Я купил новое оборудование, а также LSI 9205-8I H220, к которому можно подключить все диски. Без каких-либо изменений в конфигурации (кроме более современной материнской платы + ЦП) пул ZFS был импортирован без проблем, и пул работал целый день с 0 ошибками контрольной суммы/чтения/записи. К настоящему времени их было бы уже несколько сотен. Это подтверждает, что проблема заключалась во встроенном контроллере SATA.

Надеюсь, это поможет всем, кто сталкивается с подобной проблемой!

Другие вопросы по тегам