Когда RAID стоит проблем?
В нашем магазине мы добросовестно используем RAID на всех наших рабочих станциях, вероятно, просто потому, что, похоже, именно так и надо. Я говорю о рабочих станциях для научного моделирования, использующих встроенные чипы RAID.
Но я слышал много страшных историй о RAID. У самого Stackoverflow произошел сбой, вызванный косвенно контроллером RAID.
RAID защищает вас от очень узкого типа сбоев - физического отказа диска - но в то же время он также создает дополнительные точки отказа. Могут быть проблемы с контроллером RAID, и часто они есть. По крайней мере, в нашем магазине RAID-контроллеры выходят из строя, по крайней мере, так же часто, как и сами диски. Вы также можете легко что-то испортить с процессом замены неисправного диска.
Когда RAID стоит проблем? Разве вы не получаете более высокую окупаемость инвестиций за счет увеличения избыточности ваших решений для резервного копирования? Какой тип RAID лучше или хуже в этом отношении?
Изменить: я изменил название с оригинального "RAID стоит проблем?", Так что это звучит менее негативно
21 ответ
Не волнуйтесь, RAID не используется во всем мире бизнеса из-за группового мышления! Вероятность сбоя приличных RAID-контроллеров намного, намного ниже, чем вероятность отказа диска. Я не помню, чтобы когда-либо видел сбой RAID-контроллера в реальной жизни, хотя я видел, как умирало много дисков, как в офисе, так и в центре обработки данных.
PS: я вижу ваши теги. RAID не резервный!:)
ZFS от SUN (также является частью OpenSolaris; Apples OSX - в настоящее время только для чтения) не только выполняет рейд с различными уровнями, но и всегда проверяет, действительно ли данные, записанные на диск, присутствуют. последовательность является ключом! RAID бесполезен, если вы не можете полагаться на его целостность. Выберите подходящий RAID-контроллер (я предпочитаю HP) и почистите RAID-массив, чтобы периодически обнаруживать ошибки.
Softwareraid (как ZFS), с другой стороны, раздражает вас более независимым от аппаратного обеспечения, если RAID-контроллер умирает и вы не можете получить точную замену.
Всегда. Диски дешевые, вашей информации нет. Но используйте программный RAID, чтобы у вас была возможность двигаться дальше или менять оборудование позже (поверьте, оно вам понадобится). А также используйте файловую систему контрольной суммы, такую как ZFS, для защиты от тихого повреждения данных (что весьма вероятно в настоящее время для больших дисков).
Для тех из вас, кто говорит, что вы не будете использовать аппаратный RAID, потому что, если контроллер выходит из строя и вы не можете получить замену, которую вы испортили, вы поступите неправильно.
Если для вас важно время безотказной работы, вы НЕ должны покупать дешевое оборудование. Как было сказано ранее, используйте хороший рейд-контроллер HP, LSI, Dell и т. Д.
Если контроллер был приобретен у производителя компьютера, то есть сервера Dell, с RAID-контроллером Dell, корпорация Dell сообщит вам, как долго они будут хранить эти детали, обычно в течение 4 лет с момента EOL этого сервера.
Если кто-то снова запускает быстро, значит, вы не можете ждать доставки, тогда вам следует купить второй запасной контроллер для себя, независимо от того, кто его сделал.
Если вы устанавливаете RAID 1, вы можете иногда взять этот диск и перенести его на обычный контроллер для восстановления данных. Если это важно для вас, подтвердите / проверьте это с вашим контроллером, прежде чем вы окажетесь в критической ситуации.
Аппаратный RAID спас мой зад 2 раза. Как только на почтовом сервере вышел из строя один из дисков, я получил уведомление по электронной почте от программного обеспечения для мониторинга рейдов на этом компьютере, вызвал dell и на следующий день установил новый диск, вставил его, и он восстановил все самостоятельно. Ноль времени простоя на этом
Во-вторых, произошел сбой диска на старом файловом сервере, замена которого была запланирована на 6 месяцев. Контроллер продолжал работать, и мы перенесли замену сервера на эту неделю. Спасла покупка нового диска (так как он был вне гарантии) и снова нулевой простой.
Я раньше использовал программные рейды, и они просто не так хорошо восстанавливаются, как аппаратные. Вы должны проверить свою настройку, программное обеспечение или аппаратное обеспечение, чтобы убедиться, что оно работает, и знать, что делать, когда коричневый материал попадает в вентилятор.
Сбои жесткого диска гораздо чаще происходят на сервере, чем на рабочей станции...
Вы не можете просто сказать "добавление большего количества точек отказа", не принимая во внимание вероятность этого отказа. Тем более что эти менее вероятные точки отказа специально созданы для того, чтобы предотвратить более вероятный сбой жесткого диска. Как вы выразились, вы в основном создали ошибку Паскаля, похожую на пари.
Большинство RAID-систем на настольных материнских платах являются дешевыми программно-аппаратными гибридами, при этом большая часть работы выполняется в программном драйвере. ИМХО, это куски дерьма, используемые для продажи опытным пользователям.
С другой стороны, хороший фактический аппаратный RAID является достаточно надежным, и у него есть оборудование, которое может выполнять свои функции без (несмотря на?) Операционной системы. Но они становятся дорогими, потому что реальное оборудование обычно имеет резервные копии батареи и полный массив XOR для вычисления контрольных сумм и т. Д. Еще дороже, если это делается с использованием SCSI.
Описание: Если вы используете RAID-системы на материнской плате, то нет, это не стоит того.
Хотя резервные копии и RAID являются решениями различных проблем, большинство "проблем с RAID" очень похоже на самую распространенную проблему резервного копирования (т. Е. Никто не проверяет восстановление) - никто не проверяет восстановление системы. Другие проблемы с RAID часто являются прямым результатом того, что люди не понимают, что он делает и чего не делает. Например, многие люди думают, что RAID гарантирует целостность их данных - это не так.
Для рабочих станций, если вы используете RAID-0 для повышения производительности приложений, связанных с вводом-выводом, или RAID-1/5/6, чтобы ученый работал до 100 долларов в час, когда его жесткий диск за 80 долларов выходит из строя, вы используете RAID должным образом. Просто не путайте избыточность диска с резервным копированием, и протестируйте процедуры, чтобы гарантировать, что ваши ИТ-специалисты справятся с восстановлением.
RAID отлично подходит для безотказной работы, но не заменяет резервное копирование. Как однажды сказал один из коллег: "Вы знаете тот момент" О, черт! ", Когда вы случайно что-то удалили? RAID просто означает, что вы получаете" О, черт! "Более чем один диск одновременно".
Тем не менее, в тот день, когда вы заглядываете в кабинет своего босса и говорите ей: "Кстати, сервер базы данных вчера вышел из строя жесткого диска - мы никогда не выходили из строя, он закончил восстановление на резервный в 5 часов утра и Я отправил плохой диск по гарантии ", - вот тогда RAID - это бесценно.
Есть два типа RAID
- Тот, который дешево интегрирован. Это НЕ настоящий рейд, настоящая работа выполняется программным обеспечением (специальный драйвер выполняет вычисления рейда). Вам следует избегать этого.
- Другой дорогой, но вы получите настоящий рейд. Если вы можете себе это позволить, это стоит денег.
Некоторые операционные системы имеют хорошее программное решение для рейдов (это не имеет ничего общего с хреновыми картами, упомянутыми выше). Linux-рейд особенно хорош, его производительность действительно хорошая.
Рейд может только повысить надежность, это не решение для резервного копирования. Файлы могут быть удалены случайно, неисправный диск может возвращать (и дублировать) неверные данные на другие диски в массиве raid, поэтому реальное решение для резервного копирования все еще необходимо.
Кажется, что многие из вышеупомянутых постов забывают первоначальный вопрос и только обсуждают вопрос о RAID 1. Вопрос был: "Когда RAID стоит проблем?" Ну, это зависит... Если ваши разработчики много читают и записывают данные со своих рабочих станций, то конфигурация RAID 0 стоила бы того. Добавление большего количества дисков в этот RAID 0, конечно, увеличит скорость и производительность, НО увеличит вероятность сбоя (диска или контроллера).
Я работаю в школе медсестер, где развернуто около 500 компьютеров Dell, и почти ни одна из них не использует какой-либо RAID. Мне кажется, что мой тип пользователей не увидит достаточного преимущества, чтобы добавить сложность системы RAID на каждой машине. Я больше беспокоюсь о восстановлении данных и образах дисков, чем о скорости RAID 0 или избыточности RAID 1. Конечно, я не говорю о наших производственных серверах, это другая история. Восстановление данных имеет решающее значение, мы полагаемся на другие методы резервного копирования, чтобы учитывать не только избыточность диска. Любой тип RAID не поможет вам, если пользователь случайно удалит файл.
Поэтому, чтобы ответить на ваш вопрос ИМХО... RAID 0 на рабочей станции стоит того, когда пользователю нужна производительность. (Просто убедитесь, что все данные импорта импортированы.) Я уверен, что вы можете проверить пропускную способность данных в существующей настройке, чтобы убедиться, что она адекватна. RAID 1 следует использовать в серверной среде, где доступны контроллеры RAID более высокого класса. Это не стоит хлопот на рабочей станции, потому что это усложняет развертывание, создание образа диска и ремонт. Многие из этих рабочих станций поставляются с RAID-контроллерами, встроенными в материнскую плату. Хорошо знать, если материнская плата выходит из строя на машине, я всегда могу вставить диск в другую систему для получения данных.
Какова ваша частота отказов на жестких дисках и рейд-контроллерах? Отказ на рейд-контроллере должен быть намного ниже, чем на дисках. Если у вас высокий уровень отказов, вы можете посмотреть на свою среду, например, статические разряды, которые могут вызывать проблемы.
Для рабочих станций вы можете использовать программный рейд, как предложено Alakdae, потому что вам не придется беспокоиться о сохранении запасов точного аппаратного контроллера. Однако вы должны хранить всю важную информацию на ваших серверах, которые имеют аппаратный рейд и резервные копии на разных носителях.
Производители серверного оборудования поддерживают raid-контроллеры, поэтому, даже если это старый контроллер, вы все равно можете получить его от них, если вам это потребуется (хотя это будет стоить вам немалых денег).
Программный RAID для Linux превосходен, и на самом деле он опережает бюджетные аппаратные RAID. Он также имеет несколько оптимизаций, которые могут быть полезны для рабочей станции. Например, он может считывать разные вещи на каждом диске одновременно, эффективно удваивая время чтения произвольного доступа, что является обычным случаем в отличие от операций с ограниченной скоростью передачи, оптимизированных с помощью RAID 0.
Что касается надежности, это очень хорошо обслуживаемая часть ядра Linux, используемая миллионами, она очень хорошо справляется с аппаратными сбоями, так что это явно выигрыш, если говорить о доступности. Я годами использовал его на своих личных рабочих станциях, а также на нескольких десятках бюджетных серверов, некоторые из которых были довольно загружены и никогда не могли объяснить это какой-либо ошибкой. Тем не менее, я испытал около дюжины сломанных дисков.
(У аппаратных RAID-карт более высокого уровня есть и другие функции, такие как кэш-память с резервным питанием от батареи. Он в основном увеличивает скорость случайной синхронизированной записи на диск на десять. Это абсолютно необходимо для баз данных, вероятно, совершенно бесполезно для рабочих станций.)
Для ваших научных рабочих станций это может стоить того, ЕСЛИ эти системы работают лучше, если их данные хранятся локально, в отличие от общего ресурса на файловом сервере. Для населения в целом, однако, я бы сказал, нет. Это не стоит хлопот и головной боли, когда все, что вам действительно нужно, это восстановить данные, которые должны храниться в общих папках.
Дешевые реализации RAID ужасны.
Ваш выбор в порядке надежности:
1) Серверы HP DL с их аппаратным RAID. 2) 3Ware RAID-карты. 3) ZFS 4) Linux Software Raid
Все остальное вызывает проблемы, и в действительности может привести к снижению общей надежности, чем решение без RAID.
Подумайте, что делать, если ваш контроллер выходит из строя и производитель не работает.
Подумайте, можете ли вы восстановиться после явного отказа двух дисков, вызванного проблемами с питанием / кабелями.
Это два примера из сотен.
RAID стоит того, чтобы иметь контроллер с батарейным питанием.
Для серверных приложений, которые часто используют файлы журналов fdatasync() (что не редкость в базах данных) для долговечности, вы будете в конечном итоге писать одни и те же блоки снова и снова. Это снизит производительность ввода-вывода, если у вас нет контроллера с батарейным питанием.
Если у вас действительно есть контроллер с батарейным питанием, многие записи даже не попадут на диски, а просто останутся в памяти, пока они не будут заменены другой записью. Это хорошая вещь.
Избыточность является бонусом, но не обязательна, так как важные вещи должны быть избыточными на системном уровне.
RAID полезен только тогда, когда вы абсолютно не можете неожиданно отключить сервер. Мы используем RAID на всех наших серверах в нашем центре обработки данных, где нет какой-либо другой формы избыточности. Например, мы не используем RAID на наших веб-серверах, потому что еще 10 еще работают.
Лакмусовый тест: "Если диск сломается посреди ночи и не может ждать до 9 утра, ему нужен RAID"
У меня просто произошел сбой RAID-контроллеров на двух (одинаковых) серверах, так как у нас были эти две машины, у нас не было одного сбоя жесткого диска во всей компании.
Я думаю, что RAID на десктопе - плохая идея, дешевые контроллеры RAID, которые вы собираетесь установить на этих компьютерах, выйдут из строя задолго до реального жесткого диска.
На серверах, возможно, я больше не буду доверять RAID-контроллерам, убедитесь, что у вас есть запасная машина и хорошие резервные копии.
Для рабочих станций RAID, вероятно, не стоит того, чтобы иметь новую систему, в которой можно восстановить данные...
Многие говорили о RAID 0... этого нет, чтобы помочь доступности. Вы удваиваете шансы сбоя громкости, так как, когда один из дисков умирает, вы теряете все это. RAID 0 - это игра со скоростью доступа к чтению / записи на томе и предоставление большего объема памяти. Единственный способ, которым это может помочь в бизнес-среде, - это взять два RAID 0 и отобразить их как RAID 1.
Как уже указывалось, RAID не является решением для резервного копирования.
RAID тоже не идеален. Я думаю, что этот пост из блога этого парня подводит итог, как я отношусь к RAID и когда оно того стоит: Думаете о RAID?
На рабочей станции у вас должна быть возможность заставить одного человека использовать другую систему, пока идет замена. Зачем использовать RAID? Его или ее данные должны храниться на сервере, где управление, целостность данных и резервные копии централизованы. Рабочая станция должна быть настроена таким образом, чтобы ее можно было периодически обновлять или изменять, если позволяют финансы, а RAID - это просто еще один уровень затрат и головной боли для управления (плюс проблемы с энергопотреблением и нагревом с добавлением дисков и наложением воздушного потока). В большинстве случаев для предприятий, вероятно, гораздо более выгодно поместить деньги с карты RAID в больший диск, и если вы используете встроенный RAID, у вас все равно будут проблемы, поскольку он имеет тенденцию связывать RAID отформатировать на материнской плате (и в любом случае это не настоящий RAID-массив... в поисках Google он встречается как "фальшивый рейд".) Если вы не получите очень похожую материнскую плату, чтобы заменить ее, когда она выйдет из строя, вы не сможете вернуться в свой Объем RAID!
Я разработчик, и все наши рабочие станции используют RAID для внутренних дисков. RAID 0. Это определенно стоит того. Вы никогда не захотите возвращаться к компиляции с одного диска 7200 об / мин после того, как попробовали пару 15000-х.
Мне поставили перед собой задачу: сократить время компиляции с помощью RAID или 15k диска. Я не знаю, для компиляции один быстрый диск может дать точно такую же производительность. Тем не менее, один диск SAS не особенно велик для современного ПК, поэтому недорогой встроенный RAID-массив все же имеет место. Это и я сомневаюсь, что RAID когда-нибудь повредит производительности системы.
Я думаю, что этот тип RAID, безусловно, подходит для рабочей станции и, вероятно, лучше всего использовать недорогие встроенные контроллеры. Со стороны сервера, большинство наших серверов имеют некоторую форму RAID-массива для диска ОС, и данные затем находятся в отдельном массиве некоторой подходящей формы. Я не знаю о наших производственных серверах, но наши серверы разработки (которых у нас достаточно) никогда не выходили из строя контроллера, хотя у нас были отказы дисков. В одном случае у нас произошел сбой половины массива ОС на блоке SQL, пока он перестраивался, другой диск вышел из строя! Иногда RAID1 просто недостаточно!
Мое большое беспокойство - диски, так как кажется, что вы не можете купить дешевые:
Примечания крупного поставщика:
"Большинство RAID-контроллеров предназначены для тайм-аута данной команды, если диск перестает отвечать на запросы в течение определенного периода времени. В результате накопитель будет отключен или помечен как неисправный, и клиенту будет выдано предупреждение. Диски корпоративного класса (или диски, предназначенные для RAID-сред) имеют предел повторных попыток, прежде чем сектор будет помечен как неисправный. Этот предел повторных попыток позволяет диску реагировать на контроллер RAID в течение ожидаемого периода времени. Хотя настольные накопители могут работать с RAID-контроллером, массив будет постепенно отключаться по мере старения накопителя и может привести к потере данных ".
Это кажется мне безумным, еще одна проблема, которая гарантирует, что производители дисков получат много прибыли от людей, которые "не знают лучше". Тем не менее, я прочитал, что Google подготовил технический документ (не могу его найти), который показывает, что нет никакой разницы в надежности дисков между двумя "классами", предлагаемыми поставщиками систем хранения. Я сомневаюсь, что Google использует аппаратные контроллеры рейда в их бежевом флоте коробки все же.
Возможно, у mdadm (в linux raid) есть настройки, которые можно использовать, чтобы справиться с более нетерпеливыми настройками в прошивках настольных накопителей?
Возможно, на самом деле, каждый платит за свою гарантию через отключенный период ожидания в прошивке контроллера?
Если вы беспокоитесь о сбое контроллера диска, вам также необходимо учитывать сбой сервера - вентиляторы, материнскую плату, ОЗУ, сеть... и затем вам также необходимо учитывать сбой маршрутизатора, кабели и питание... и вам также нужно учитывать, что центр обработки данных выходит из строя (наводнение, пожар, ошибка человека), а затем нужно учитывать, что внешняя сеть выходит из строя (обрыв кабелей - все время в некоторых местах!).
Короче говоря, вы можете беспокоиться о времени простоя сайта так сильно, что никогда не потрудитесь разместить что-либо в сети! Или вы можете сравнить риск неудачи с затратами на избыточность и получить гораздо более реалистичный подход. И из всего, что я перечислил, жесткий диск является наиболее вероятной точкой отказа.
То есть рядом с человеческой ошибкой. Кто типа shutdown -h now
"когда они хотели перезагрузиться....:(
Зачем беспокоиться о рабочей станции? Конечно, у вас есть все ваши домашние каталоги и данные хранятся централизованно. Вот где вы хотите использовать рейд.