Ошибки ECC в кеше L3 - критические или нет?

На Linux-сервере (8x Quad-Core AMD 8378) я получаю следующие ошибки:

[Hardware Error]: MC4_STATUS[-|CE|MiscV|-|AddrV|CECC]: 0x9c294c00001d018b
[Hardware Error]: Northbridge Error (node 4): ECC error in L3 cache tag.
[Hardware Error]: cache level: L3/GEN, tx: GEN, mem-tx: SNP
[Hardware Error]: Machine check events logged

Это происходило три раза за последний месяц, но никогда раньше (сервер работал 3 года).

Из быстрого поиска в Google кажется, что это серьезный вопрос.

Тем не менее, специалист по поддержке поставщиков сказал:

Я видел эти ошибки МНОГИЕ раз, и если вы не разгоняете свой ЦП - или у вас был сбой вентилятора или что-то подобное - это ОЧЕНЬ маловероятно, что проблема с процессором. Скорее всего, ядро ​​неверно сообщает об ошибке.

Итак, является ли это критической ошибкой, и я должен заказывать новые детали (заменять ЦП?) Или игнорировать ее?

Большое спасибо.

3 ответа

Лучшая практика: по возможности сохраняйте запасные части.

Что касается исключений проверки компьютера, они сообщаются оборудованием; ядро просто передает вам сообщение, чтобы вы могли предпринять действия, прежде чем проблема с аппаратным обеспечением выйдет из-под контроля и приведет к настоящей катастрофе.

Единственный случай, когда мне удалось найти ядро, "неверно сообщающее" об исключении проверки компьютера, было следующее. В этом случае проблема была в процессоре, а не в ядре.

Процессоры семейства процессоров Intel Xeon E7 имеют проблему, из-за которой некоторые переходы c-состояний могут привести к тому, что пользователю MCE bank 6 будет сообщено о ложно исправляемых ошибках машинной проверки (MCE). В некоторых системах семейства процессоров E7 это приводило к "потокам" ошибок MCE. Этот патч отключает отчеты об ошибках MCE для банка 6.

Итог: для меня это звучит так, будто поставщик пытается избежать замены неисправного оборудования.

На корпоративных серверах мы работали так: замените поставщика, если ошибки чрезмерны или повторяются неделя за неделей. На самом деле служба мониторинга событий сама по себе запустила это. Никаких вопросов не было задано.

Переходя на x86, мы также получили истории о путанице EDAC/MCE и т. Д. Если ошибки продолжают появляться, необходимо заменить оборудование.

(Существует также небольшая вероятность того, что это связано с большими солнечными событиями. Это возможно, но аппаратное обеспечение ПК ненадежно и производители не хотят заменять что-либо, что гораздо более распространено)

[Аппаратная ошибка]: уровень кэша: L3/GEN, tx: GEN, mem-tx: RD. Я также получаю эту ошибку каждый раз, когда перезагружаю систему. Перезапуск — это нормально, однако при выключении компьютер теряет управление. Когда говорят «ЦП», вы имеете в виду оперативную память? У меня процессор с 32 узлами и 8 картами по 64 мегабайта каждая. Стоит ли мне беспокоиться об этой ошибке>? Спасибо за ваши реплеи.

Другие вопросы по тегам