Аппаратные проверки после отказа кондиционера

У нас был сбой кондиционирования воздуха на ночь. Мы обнаружили, что температура в серверной комнате достигла примерно 110-115°F (43-46°C). Мы отключили все, что еще не было, и установили кондиционер.

Теперь, когда это исправлено, меня беспокоит ущерб, нанесенный длительным воздействием высокой температуры. Я хотел бы провести серию тестов на всех наших машинах, чтобы убедиться, что машины не повреждены, прежде чем мы вернемся к ним. Мой план следующий:

  • Запустите memtest86, чтобы проверить, не были ли повреждены какие-либо модули DIMM (уже сделали это и, по существу, не обнаружили проблем)
  • Запустите Prime95, чтобы проверить, не повреждены ли какие-либо ЦП (предположительно, это будет происходить в виде непредвиденных прерываний или аппаратных сбоев).
  • Бежать smartctl -a а также badblocks на всех дисках и проверьте вывод на наличие каких-либо аномалий

Этот список выглядит немного тонким, и я не уверен, что все они будут правильно использовать аппаратное обеспечение, чтобы в будущем мы не столкнулись с проблемами, связанными с нагревом.

Достаточно ли этой батареи тестов? Есть ли другие, которые я должен рассмотреть?

1 ответ

Решение

46,5 градусов по Цельсию.

Начните не с проверки, а с чтения документов для ваших основных серверов.

Вы обнаружите, что, вероятно, вполне в пределах их рабочих температур. Я не шучу. Аппаратное обеспечение сделано для нескольких целей, и на Земле есть ГОРЯЧИЕ места - вы действительно хотите сказать парню в Техасе в действительно жаркий день, что нет, ему НУЖЕН кондиционер?

Черт возьми, просто проверяя серверы, которые я получил:

https://supermicro.com/Aplus/system/1U/1123/AS-1123US-TR4.cfm

Температурный интервал дан до 95 Фаренгейт. А ЦП перегружены температурой - во всяком случае, они бы отключились.

Вы должны проверить целостность дисков и убедиться, что резервные копии в порядке - процессоры не будут перегружены и не повредят так легко. Не прошло и 15 лет или более, с тех пор все вводят схемы термического дросселирования. У меня было несколько сбоев CPU Cooler, и они привели к выключению процессора mobo FAST.

Другие вопросы по тегам