Посмотрите количество исправлений ECC

Мне любопытно, есть ли какой-нибудь счетчик производительности, который будет регистрировать количество требуемых исправлений ECC, которое, возможно, можно отследить как ранний индикатор сбоя памяти. Я полагаю, что теоретически это было бы доступно так же, как об ошибках страницы из tlb сообщается в ОС?

Решения для Windows или FreeBSD и Linux приветствуются.

3 ответа

Решение

Большинство аппаратных средств обрабатывает эту запись изначально. Например, контроллер управления iLO на материнской плате HP выдает ошибку памяти ECC в свой журнал интегрированного управления.

Итак, общий ответ на общий вопрос: проверьте возможности и ресурсы вашей системы управления оборудованием.

Для Linux:

Установите mcelog, и он будет регистрировать все ошибки в /var/log/mcelog.log

Вы также можете ознакомиться с системными файлами Linux, см. Документацию EDAC для получения соответствующей информации: https://www.kernel.org/doc/Documentation/edac.txt

Или прочитайте эту страницу, в ней рассказывается об использовании ядра EDAC для запросов к контроллеру памяти и приводится несколько примеров сценариев: http://www.admin-magazine.com/Articles/Monitoring-Memory-Errors

больше /sys/devices/system/edac/mc/mc0/ue_count

Другие вопросы по тегам