Почему снижается уровень ошибок SMART?
У меня есть жесткий диск, который является частью массива raid5 программного обеспечения Linux. SMART сообщил, что его multi_zone_error_rate было 0, затем 1, затем 3. Поэтому я решил, что лучше начать резервное копирование чаще и подготовиться к замене диска. Теперь, сегодня, multi_zone_error_rate того же самого диска вернулась к 1. Кажется, что 2 ошибки не произошли, пока я не смотрел.
Я также видел похожее поведение, просматривая системный журнал на сервере.
Jun 7 21:01:17 FS1 smartd[25593]: Device: /dev/sdc, SMART Usage Attribute: 7 Seek_Error_Rate changed from 200 to 100
Jun 7 21:01:17 FS1 smartd[25593]: Device: /dev/sde, SMART Usage Attribute: 7 Seek_Error_Rate changed from 200 to 100
Jun 7 21:01:18 FS1 smartd[25593]: Device: /dev/sdg, SMART Usage Attribute: 7 Seek_Error_Rate changed from 200 to 100
Jun 8 02:31:18 FS1 smartd[25593]: Device: /dev/sdg, SMART Usage Attribute: 7 Seek_Error_Rate changed from 100 to 200
Jun 8 03:01:17 FS1 smartd[25593]: Device: /dev/sdc, SMART Usage Attribute: 7 Seek_Error_Rate changed from 100 to 200
Jun 8 03:01:17 FS1 smartd[25593]: Device: /dev/sde, SMART Usage Attribute: 7 Seek_Error_Rate changed from 100 to 200
Это необработанные ценности, а не полезные для человека smartctl -a
производит, но поведение аналогично: частота ошибок меняется, а затем отменяет изменения. Ни один из них не является дисководом со странной мультизоной. Я не видел никаких проблем с RAID; его последний скраб ( < 24 часа назад) вернулся полностью чистым. Это единственные значения SMART, которые ведут себя странно.
Единственное, о чем я могу подумать, это то, что схема SMART-отчетов на диске не всегда работает должным образом. Кабели плотно прилегают к приводу и плате. Что тут происходит?
2 ответа
Так как мера называется скоростью, может случиться так, что со временем ожидается ее снижение, если не произойдет дальнейших ошибок. Вам нужно будет проверить документацию диска, чтобы быть уверенным.
Если показателем является "количество событий с течением времени", а не абсолютное число с определенного времени, то оно будет падать, если ошибки перестанут возникать. Возможно, предыдущее увеличение было связано с локальными изменениями условий окружающей среды, такими как внезапный скачок температуры (необычная погода, отказ кондиционера) или увеличение вибрации (любая работа, выполненная в той же стойке за какое-то время, могла привести к тому, что что-то сломалось) или, возможно, незначительные подземные толчки, если вы находитесь в зоне, затронутой ими, или, возможно, кто-то злится и кричит на сервер), и это временное изменение условий с тех пор вернулось и не вернулось.
"ошибка" в именах чтения SMART не всегда означает постоянную и / или неисправимую ошибку. Ошибка поиска может быть связана с отсутствием меток на головках дисков из-за вибрации - в этом случае электроника привода просто перенастроит положение (или оставит его для установки) и будет ждать, пока диск развернется, чтобы цель сектор снова доступен Такого рода вещи ожидаются из-за очень сжатых сроков и требований к точному позиционированию, предъявляемых современными приводами на основе вращающихся дисков, и небольшое количество таких ошибок не является проблемой.
Может статься, что он выделен вокруг плохих секторов и "исправил" проблему. Определенное количество этого вполне терпимо в драйве.