Извлекать данные с сервера, не вызывая высокого дискового ввода-вывода

Мой текущий диагноз состоит в том, что есть аппаратная ошибка, связанная либо с памятью аппаратного RAID-контроллера, либо с дополнительным соком, который требуется жестким дискам при полной загрузке.

Пробовал заменять БП, без кубиков. Попробовал в живую загрузку другой ОС, без кубиков. Высокий уровень дискового ввода-вывода обеспечивает жесткое отключение независимо от операционной системы. Я установил, что новый сервер определенно необходим.

Однако теперь я сталкиваюсь с проблемой создания резервной копии содержимого дисков, не вызывая высокого ввода-вывода. Я настроил cgroups с пределом IOps, с которым я поиграл, чтобы увидеть, как высоко он может быть, не вызывая выключение. Кажется, что результаты немного отличаются для каждого диска, но в среднем около 100 iops работают дольше, пока не произойдет сбой. Однако это нереально, учитывая, что существует около 120 ГБ данных. Кстати, это диски SAS 15K.

Регулирование ввода-вывода, кажется, работает, но это утомительный процесс, так как мне приходится настраивать все заново, когда сервер выключается. Я копирую данные с накопителей на внешний накопитель, используя Runtime Live CD (Knoppix fork).

Серверу около 7 лет, и у меня нет дополнительного разъема для дисков.

Когда вы сталкиваетесь с таким сценарием, каков надежный способ получения данных с дисков?

Просто для справки, это ссылка, которая помогла мне настроить cgroups, ограничивающие IO: http://fritshoogland.wordpress.com/2012/12/15/throttling-io-with-linux/

1 ответ

Решение

Я сам видел нечто подобное, хотя это было несколько лет назад.

В моем случае это была проблема с памятью, и при копировании данных происходила какая-то форма кэширования, которая, как я подозревал, медленно использовала память, пока она не попала в проблемную память и... бум! разбился компьютер. Тест памяти должен идентифицировать это достаточно легко, или, возможно, удалить некоторую память, чтобы увидеть, решает ли она проблему или ухудшает ее?

Если нет, то я сомневаюсь, что это связано с пропускной способностью данных, и что пропускная способность просто задерживает проблему, скрывая фактическую причину.

возможно, стоит проверить температуру процессора и на тот случай, если копирование данных вызывает достаточную работу процессора, чтобы поднять его до точки сбоя? т.е. с неисправным вентилятором или проскользнувшим радиатором? замедление копирования данных просто уменьшает нагрузку, достаточную для задержки повышения температуры.

Наконец, вы не говорите, как настроены ваши диски? т.е. RAID или JBOD? Вы можете перенести диски на другой сервер по отдельности или группой? очевидно, не просто перемещайте их, если они являются дисками RAID, кроме как в крайнем случае! если вы не знаете, что делаете, конечно!

НТН

Другие вопросы по тегам