Диагностика проблем с подключением к SAN (RHEL5)

В настоящее время мы используем GFS2 для разделения SAN LUN между 3 серверами. Однако из-за проблем с функциональностью используемого нами программного обеспечения вендора у нас в настоящее время том отключен на двух блоках, и вместо этого мы экспортируем файловую систему GFS2 через NFS из первого (программное обеспечение требует некоторой странной механики блокировки, которую GFS2 не делает '). т поддержка).

С этого утра NFS больше не мог читать и записывать тома ни с одного из серверов, включая сервер NFS. Затем я попытался проверить нормальное монтирование (каталог, экспортируемый на NFS-сервер), и получил странную ошибку ввода-вывода, просто пытаясь вставить в нее CD. Когда я попытался запустить многолучевое распространение, я получил ошибку DM, однако многолучевое -l работало нормально. Я попытался размонтировать том GFS2, и CLI завис. Я запустил init 0, который убил большинство служб, но затем выключение оказалось зависшим. Я вошел в систему с помощью внешнего доступа (hp ILO) и увидел, что завершение работы зависало при попытке размонтировать тома GFS2.

Моим главным приоритетом было возвращение коробки в оперативный режим, поэтому примерно через 5 минут ожидания я сделал полный сброс. Я сейчас пытаюсь выяснить, что пошло не так. Каковы правильные журналы, чтобы исследовать? Я никогда раньше не сталкивался с такими проблемами SAN. SAN подключен через 2 оптоволоконных соединения. Любая помощь будет принята с благодарностью. Кажется, что все работает и функционирует.

1 ответ

В Linux нет специальных журналов - обычно используйте dmesg/syslog.

Для коммутаторов SAN способ доступа к журналам зависит от поставщика (в Brocade -> ssh admin@x -> errdump).

Для дискового хранилища SAN способ доступа к журналам зависит от поставщика (в LSI -> GUI -> Журнал событий -> отключить show_critical_only -> refresh).

Прежде всего, убедитесь, что у вас есть ntp (или другая синхронизация времени) для коммутаторов SAN и хранилища SAN, или вы никогда не узнаете, какая ошибка является причиной, а какая - следствием.

Проверьте наиболее вероятную причину, проверьте, как ваш многолучевой /GFS2 реагирует на случайное удаление кабеля FC.

Проверьте вторую возможную причину, проверьте, как ваш многолучевой /GFS2 реагирует на случайное отключение контроллера дискового массива SAN.

Другие вопросы по тегам