Замена жестких дисков
Мне было интересно, будет ли хорошей идеей заменить жесткий диск на (довольно) критичном для системы сервере базы данных после определенного количества лет использования, прежде чем он умрет.
Например, я думал о замене жесткого диска после 3 лет использования. Поскольку у меня много жестких дисков на разных серверах, я могу пошатнуться, какие жесткие диски заменены.
Это хорошая идея, или люди просто ждут неудачи?
3 ответа
Компания Google провела исследование дисковых накопителей и обнаружила очень небольшую взаимосвязь между сроком службы дисков и поломками. Тесты SMART также не показывают сбоев.
Мои локальные наблюдения (>500 серверов) похожи. У меня новые диски быстро выходят из строя, в то время как старые все еще пыхтят.
Мое общее правило: если мы видели проблемы с диском (SMART или системные ошибки), мы немедленно его заменяем. Если нет, то диски отключаются, когда это делает сервер.
Нет.
Одна из самых больших проблем с заменой жесткого диска на активном производственном сервере состоит в том, что это вызовет перестройку. Особенно, если вы используете RAID5, и особенно если вы используете большие диски, принудительное восстановление создает очень значительный риск неисправимого сбоя. Риск потери массива во время восстановления гораздо выше, чем риск, связанный с оставлением 3-летнего накопителя на месте.
Возьмем крайний пример: если вы последовательно заменяете каждый диск в массиве RAID5 с 6 дисками, состоящем из дисков объемом 2 ТБ, ваш теоретический риск неустранимой ошибки чтения во время одного из восстановлений составляет около 58% (согласно моей математике с использованием салфеток; пожалуйста, сделайте свое и сравните заметки). Другими словами: ваша "превентивная" замена диска, по сути, не что иное, как акт саботажа.
Единственный случай, когда я рассмотрю возможность обновления дисков на старом сервере, - это его "восстановление", например, после того, как он был выведен из эксплуатации из одной задачи и перед тем, как вернуть его в эксплуатацию с новой ролью. Даже в этот момент требования к емкости и производительности будут гораздо важнее, чем возраст дисков.
Я не видел это. Мы держим серверы на гарантии, пока они не будут сняты с производства - 5 лет. Стандартный RAID 5 позволяет вам пережить сбой диска, поэтому мы просто держим пару дисков под рукой, чтобы сразу приступить к восстановлению, а на критически важных серверах мы включили горячую копию или перейти на RAID 10.
Если вы недавно заметили сбой нескольких дисков на сервере, возможно, у вас проблема с объединительной платой. Может быть новая вибрация или пыль тоже из соседней конструкции.