Прерывистые блокировки NFS на кластере Isilon

У нас есть кластер Isilon с 8 узлами IQ 12000x, который экспортирует хранилище через несколько общих ресурсов NFS для нескольких клиентов Linux и Solaris.

Существует система Linux, в которой смонтирована одна из этих файловых систем NFS. Ввод / вывод в эту файловую систему умеренно тяжел из системы Linux. Каждые 3-4 недели (это не по какому-либо заметному графику, а иногда и более / менее часто, чем это), мы замечаем, что вся деятельность прекращается на этом монтировании NFS (процесс зависает, как если бы сеть перестала работать, так что процесс застрял в непрерывном сне) - через 30 минут доля восстанавливается и все продолжает работать в обычном режиме. Журнал ядра от затронутой машины выглядит следующим образом:

Dec  3 10:07:29 redacted kernel: [8710020.871993] nfs: server nfs-redacted not responding, still trying
Dec  3 10:37:17 redacted kernel: [8711805.966130] nfs: server nfs-redacted OK

Соответствующий /etc/fstab линия:

nfs-redacted:/ifs/nfs/export_data/shared/...redacted... /data nfs defaults 0 0

Я проверил, есть ли какие-либо запланированные процессы, например, задания cron, функции, связанные с Isilon, например, снимки и т. Д., Которые могут вызывать эти зависания, но я не могу ничего найти. Я также не знаю ни о каких проблемах с сетью или об обслуживании, которые могли бы вызвать это. Все блокировки длятся почти ровно 30 минут в журналах ядра.

Возможно, у кого-то есть предложения, которые я мог бы попробовать? (Я подумал о мягком монтировании, чтобы избежать проблем, связанных с зависанием процессов в файловой системе; однако я опасаюсь повреждения, которое может произойти, и оно в любом случае не решит основную проблему).

1 ответ

Проверьте правильность значений MTU на всем протяжении топологии проводки. Если клиент уровня доступа установлен на 9000, и он проходит через коммутатор. Убедитесь, что коммутатор может работать с большими размерами MTU.

Другие вопросы по тегам