Повторный сбой диска на сервере Dell T610
Я купил подержанный Poweredge T610 и обновил его до 2-х процессоров Hexcore Xeon X5675 и 96 ГБ ОЗУ. Первоначально я использовал 3 зеленых накопителя WD емкостью 2 ТБ в массиве RAID-5 (контроллер Perc6i) и установил сервер Ubuntu на виртуальный диск. Эта установка служила мне хорошо около года, а затем начались проблемы:
Я купил несколько новых дисков для расширения в качестве второго массива - 4x красные накопители на 3 ТБ. В то же время я узнал, что, по крайней мере, WD зеленый не является хорошим выбором, поэтому я хотел сделать резервную копию некоторых данных на новом VD. Оказывается, что Perc6i не любит диски>2 ТБ, но он распознал первые 2 из 3 ТБ. Я еще не начал настраивать VD с новыми дисками, но через 3 недели мой зеленый массив WD начал повреждаться (сначала только странные символы в некоторых программах, затем более серьезные проблемы вплоть до поврежденной последовательности загрузки). Я попал в профессиональную службу восстановления данных, которая, к счастью, могла мне помочь. Я заменил Perc6i на H700 и настроил массив RAID6 из 4 красных накопителей WD емкостью 3 ТБ (который я проверял с помощью расширенного теста диагностики оборудования dell перед настройкой - никаких ошибок ни на одном из них). Установите Ubuntu, все необходимое мне программное обеспечение, x2go и т. Д. Запустите и снова запустите.
Теперь у меня та же проблема, что и раньше - в X2go он запускается с того же программного обеспечения (пакет биоинформатики artemis), который выплевывает глифы в командной строке, и, похоже, я возвращаюсь к исходной точке. Все индикаторы состояния на кедди постоянно горят зеленым, т. Е. Онлайн. Нет прогнозируемого сбоя, который система распознает по крайней мере.
Я начинаю задумываться, в чем может быть проблема:
То, что я не думаю, вероятно: - основной сбой диска (опять же!), Так как диски были новыми, не имели плохих секторов при расширенном тестировании и вообще не имели большого количества времени включения. -контроллер perc6i был заменен на H700 после первой аварии и не должен быть проблемой
Что мне нужно помочь, чтобы оценить: - проблемы с объединительной платой / кабелем? (Контроллер H700 поставлялся с кабелями для другого типа сервера, который не подходил для моего случая - просто использовал другой кабель SATA6 для подключения контроллера к задней панели). Дисководы, кстати, находятся в тех же отсеках, что и предыдущие, отказавшие, с оригинальным SATA-кабелем Dell, идущим туда.
Проблемы с материнской платой? Проблемы с ЦПУ или ОЗУ? -Питание питания (пики напряжения??)
У кого-нибудь была подобная проблема раньше? Любая помощь здесь высоко ценится. К сожалению, я отсутствую еще две недели, прежде чем смогу получить доступ к серверу (как физическому, так и сетевому), о проблеме "сообщила" моя жена, которая работает с сервером в нашей локальной сети (но, к сожалению, не будет в состоянии помочь в устранении неполадок).
Да, я выполнил полную процедуру диагностики оборудования Dell без каких-либо проблем. Только один из дисков был обнаружен с дефектными блоками, но я не смог восстановить массив raid 5, следовательно, специалист по восстановлению данных. Все остальное оборудование было в порядке
Мне просто интересно, могут ли быть где-нибудь противоречивые проблемы, такие как глючные контакты в любом месте, которые могут пройти тесты в один момент и потерпеть неудачу в другой раз. Или если тесты не охватывают все сценарии...
2 ответа
По опыту это звучит как проблема коррупции в баранах. Первое, что я бы попробовал, это инструмент диагностики памяти. У Dell они доступны для скачивания.
Если это не обнаружит ошибок, я потяну все оборудование до минимума, а затем добавлю их обратно, пока вы не увидите проблему. Очень много времени, но иногда единственный способ, если диагностика ничего не показывает. Очевидно, что это трудно сделать с жесткими дисками, но вы можете сделать это с процессором и оперативной памятью. Не забывайте добавлять вещи обратно по одному, иначе вы не будете знать, кто виноват.
Мое другое предложение - использовать гипервизор и создавать виртуальные машины вместо установки на голое железо. Это значительно облегчит восстановление работоспособности в случае сбоев. Кроме того, установка режима резервного копирования перед установкой приложений поможет вам избежать повторного использования сервисов восстановления данных.
Невезение? Проверьте жесткий диск на другом новом компьютере, чтобы узнать их текущее состояние.
Имейте в виду, что T610 похож на 9-летний. Я честно думаю, что любой текущий рабочий стол будет быстрее, чем T610.
Микропрограмма накопителя может повлиять, но ваш массив пометит их как чужой диск, тот факт, что вы поменяли их сразу, лучше, никакой накопитель dell с их микропрограммой со смешанным ванильным накопителем не будет разрешен контроллером.
Их прошивка на диске позволяет контроллеру выполнять расширенные функции с диском, в то время как массив, если используется обычный диск с обычной прошивкой, будет работать нормально.
Тот факт, что ваш массив был обнаружен, заставляет меня думать, что контроллер может их видеть и использовать. Вот почему я вначале заявляю, что неудача