Посмотрите количество исправлений ECC
Мне любопытно, есть ли какой-нибудь счетчик производительности, который будет регистрировать количество требуемых исправлений ECC, которое, возможно, можно отследить как ранний индикатор сбоя памяти. Я полагаю, что теоретически это было бы доступно так же, как об ошибках страницы из tlb сообщается в ОС?
Решения для Windows или FreeBSD и Linux приветствуются.
3 ответа
Большинство аппаратных средств обрабатывает эту запись изначально. Например, контроллер управления iLO на материнской плате HP выдает ошибку памяти ECC в свой журнал интегрированного управления.
Итак, общий ответ на общий вопрос: проверьте возможности и ресурсы вашей системы управления оборудованием.
Для Linux:
Установите mcelog, и он будет регистрировать все ошибки в /var/log/mcelog.log
Вы также можете ознакомиться с системными файлами Linux, см. Документацию EDAC для получения соответствующей информации: https://www.kernel.org/doc/Documentation/edac.txt
Или прочитайте эту страницу, в ней рассказывается об использовании ядра EDAC для запросов к контроллеру памяти и приводится несколько примеров сценариев: http://www.admin-magazine.com/Articles/Monitoring-Memory-Errors
больше /sys/devices/system/edac/mc/mc0/ue_count