Как долго / как тяжело мне проводить стресс-тестирование процессора и памяти, прежде чем объявить это нормально?
Один из наших ЖК-мониторов Dell PowerEdge показывал "Ошибка проверки компьютера с процессором 2", но я не смог найти ничего в журналах, касающихся MCE или "Ошибка оборудования". Я очистил сообщение, но хотел прогнать машину через тяжелые вещи, чтобы посмотреть, смогу ли я снова споткнуться.
Я использовал скрипт bash с бесконечным циклом, выполняемый 64 раза (по одному для каждого ядра) в течение нескольких минут. Затем я использовал программу под названием "стресс", чтобы сделать то же самое с процессором и памятью. У меня вопрос, какой суммы достаточно, прежде чем можно будет нормально сказать: "Хорошо, эта машина хороша для того, чтобы ездить"? Несколько минут? Час? Пока температура процессора остается в порядке?
2 ответа
Если сервер находится на гарантии, попросите поставщика заменить его.
Если на сервер не распространяется гарантия, и часть не может быть заменена, окончательный ответ будет субъективным.
Это сервер, который НЕ МОЖЕТ потерпеть неудачу (т. Е. Работает жизнеобеспечение, обрабатывает финансовые операции в реальном времени)? Или это просто веб-сервер для фан-сайта щенка?
В любом случае, просто запустите сервер через любой процесс "записи", который у вас есть для нового оборудования.
Я добавлю: если вы пришли сюда в надежде найти кого-то, кто согласится с риском, связанным с оставлением этого сервера в работе, ни один из наших ответов не должен быть истолкован так, чтобы мы считали приемлемым оставить сервер в рабочем состоянии как есть., Это то, что вы должны будете отправить через процесс оценки рисков, который является внутренним для вашей компании. Никто здесь не может дать однозначное определение: "Запустите memtest и премьер на x дней без ошибок, и вам гарантирован стабильный сервер"...
Для памяти: не менее нескольких часов, используя memtest86
, Чем больше времени вы можете потратить на это, тем лучше. Все, что ниже 3 часов, не совсем достоверно из моего опыта. Я бы сказал, пусть это будет работать не менее 12-24 часов, чтобы быть уверенным.
Для тестирования процессора вы можете запустить основные программы, то есть mprime
или другие стресс-тесты, такие как компиляция огромного количества кода для проверки правильности вычислений. Чем дольше они бегут, тем лучше.
Они работают нормально, но не дают вам никаких гарантий. Если один из этих тестов не пройден, у вас есть хотя бы способ воспроизвести.
Ошибка проверки компьютера, с другой стороны, выглядит так, что вы действительно должны сообщить об этом поставщику, даже если вы не можете ее воспроизвести. Ваша машина может нормально работать в течение нескольких недель и месяцев даже после тестирования, но в самый неудачный момент она снова выйдет из строя.