Настройки стресса (Linux), ожидания и вопросы

На прошлой неделе только что получил несколько новых ядер и оперативной памяти, хотел провести их стресс-тестирование и посмотреть, насколько они хороши. К сожалению, я не смог найти никаких реальных ресурсов о том, как сделать это без OD, поэтому я запустил StressLinux.

Двойной QC Xeon 2.66 с HT, 16 ГБ оперативной памяти, сработал от стресса:

stress --cpu 10240 --io 256 --vm 16 --vm-bytes 1G --vm-keep --timeout 2000

Выстрелы назад (среди прочего):

<-- worker 8129 got Signal 9
now reaping child worker process
failed run completed in 2009s

Что это значит? Куда мне идти отсюда?

[[ РЕДАКТИРОВАТЬ ]]

Кроме того, чем хороши и настройки тестирования для такой машины? На момент этого редактирования я использую:

stress --cpu 30000 --io 2000 --vm 30 --vm-bytes 1G --vm-keep

И я все еще не могу получить температуру процессора выше <60C... Опять же, это Dell PowerEdge 1900, и поток воздуха безумный... Но я не должен быть в состоянии поднять температуру немного больше?

[[ИЗМЕНИТЬ СНОВА]]

Возможно, мне следует перефразировать вопрос о том, что, по моему мнению, очевидным направлением было бы: как облагать налогом процессоры до предела (какие настройки), чтобы гарантировать, что у меня надежные микросхемы (т. Е. До того, как истечет гарантия на бывшие в употреблении).

Я использую "тепло" в качестве меры налогообложения, потому что это единственный способ, который я знаю. Низкий нагрев (всего 20C выше холостого хода) показал бы мне, что я не толкаю их так сильно, как мог.

Естественным продолжением этого вопроса может быть: "Есть ли способ определить, какой стресс я на самом деле воздействую на ядра? Или сколько у меня больше запаса?

Где моя духовка?

1 ответ

Решение

Вы делаете это НЕПРАВИЛЬНО.

Серьезно - это не то, как вы "тестируете" систему.
То, насколько сильно нагревается процессор, является плохим показателем рабочей нагрузки на процессор - я мог бы легко слегка превысить его проектные параметры рабочей температуры (и, возможно, отключить его схему тепловой защиты и отключить). Я мог бы иметь центральный процессор с нулевым градусом, если бы я хотел охладить его жидким гелием.
Вы проверяете эффективность своей системы охлаждения, ничего больше.


Если вы хотите определить, является ли система стабильной и функциональной, просто наложите на нее какую-либо общую нагрузку на процессор и память (попробуйте перекомпилировать операционную систему: make world до сих пор является стандартным стресс-тестом в сообществе BSD).

  • Если система дает сбой, она не стабильна, и вы можете посмотреть на компоненты (RAM, CPU, Motherboard), чтобы определить причину.
  • Если он выживет, у вас есть одна точка данных, указывающая на возможную стабильность, но помните:
    Вы никогда не сможете сказать, насколько сильным является что-то, только насколько оно было БЕЗ до отказа.

Если вы проваливаете тестирование, вы знаете, что компонент больше не подлежит обслуживанию. Было ли это плохо, когда вы его получили, или нет, вы не можете сказать - ваш стресс-тест, возможно, вызвал сбой (особенно если вы используете "тепло" в качестве арбитра стресса: запуск процессора выше его максимальной номинальной температуры является отличный способ его уничтожить).


Современные компьютеры, продаваемые известными производителями, используют высококачественные детали, которые тщательно тестируются производителем перед продажей. Такие компании, как Intel, полагаются на свое доброе имя, чтобы сохранить свой бизнес.
Соответственно, вероятность того, что у вас плохой процессор, сравнительно невелика. Вероятность плохого ОЗУ или плохого жесткого диска значительно выше, но именно поэтому у нас есть ECC RAM и RAID-массивы.

Другие вопросы по тегам