Прерывистые блокировки NFS на кластере Isilon
У нас есть кластер Isilon с 8 узлами IQ 12000x, который экспортирует хранилище через несколько общих ресурсов NFS для нескольких клиентов Linux и Solaris.
Существует система Linux, в которой смонтирована одна из этих файловых систем NFS. Ввод / вывод в эту файловую систему умеренно тяжел из системы Linux. Каждые 3-4 недели (это не по какому-либо заметному графику, а иногда и более / менее часто, чем это), мы замечаем, что вся деятельность прекращается на этом монтировании NFS (процесс зависает, как если бы сеть перестала работать, так что процесс застрял в непрерывном сне) - через 30 минут доля восстанавливается и все продолжает работать в обычном режиме. Журнал ядра от затронутой машины выглядит следующим образом:
Dec 3 10:07:29 redacted kernel: [8710020.871993] nfs: server nfs-redacted not responding, still trying
Dec 3 10:37:17 redacted kernel: [8711805.966130] nfs: server nfs-redacted OK
Соответствующий /etc/fstab
линия:
nfs-redacted:/ifs/nfs/export_data/shared/...redacted... /data nfs defaults 0 0
Я проверил, есть ли какие-либо запланированные процессы, например, задания cron, функции, связанные с Isilon, например, снимки и т. Д., Которые могут вызывать эти зависания, но я не могу ничего найти. Я также не знаю ни о каких проблемах с сетью или об обслуживании, которые могли бы вызвать это. Все блокировки длятся почти ровно 30 минут в журналах ядра.
Возможно, у кого-то есть предложения, которые я мог бы попробовать? (Я подумал о мягком монтировании, чтобы избежать проблем, связанных с зависанием процессов в файловой системе; однако я опасаюсь повреждения, которое может произойти, и оно в любом случае не решит основную проблему).
1 ответ
Проверьте правильность значений MTU на всем протяжении топологии проводки. Если клиент уровня доступа установлен на 9000, и он проходит через коммутатор. Убедитесь, что коммутатор может работать с большими размерами MTU.