Очень высокая нагрузка при пвмове в дому

У меня было довольно плохое время этим вечером. Мне пришлось перенести LVM2 LV с одного PV на другой (исходный PV, поддерживаемый NFS, хранится на vdisk, целевой PV, поддерживаемый iscsi LUN). Перемещение небольших LV этого VG (несколько гигабит) прошло нормально, но у меня было 400 ГБ LV, и через некоторое время это привело к тому, что мой гость достиг более 150 loadavg, так что он застрял, и мне пришлось с трудом перезагрузить его.

Я попытался возобновить pvmove после удвоения памяти и размера процессора (16 ГБ и 4vcpu). Нагрузка стала очень высокой почти сразу. Достигнув 60 минут загрузки из 5 минут, я решил убить процесс pvmove (скрещивание пальцев). Процесс был завершен должным образом, или, по крайней мере, его больше не было в таблице процессов согласно ps и top, но нагрузка продолжала увеличиваться. Достигнув более 90, прежде чем я решил, перезагрузка была моей единственной возможностью. Хотя процесс pvmove больше не выполнялся, нагрузка никогда не уменьшалась, и ЦП почти исключительно ожидал ввода-вывода, как показано ниже (вероятно, через 40 минут после того, как я остановил процесс, который работал в течение 5 минут максимум).

top - 21:18:44 up 12:26,  1 user,  load average: 93.07, 92.53, 89.07
Tasks: 405 total,   1 running, 402 sleeping,   2 stopped,   0 zombie
Cpu(s):  0.1%us,  0.1%sy,  0.0%ni,  0.0%id, 99.8%wa,  0.0%hi,  0.0%si,  0.0%st
Mem:  16021672k total, 15363796k used,   657876k free,   427060k buffers
Swap:  2095100k total,       36k used,  2095064k free, 11856520k cached

У меня все еще был открытый и отзывчивый терминал ssh. Действия с файловой системой казались довольно отзывчивыми (listng dir), но перезапуск демона занял много времени, и было невозможно открыть новые ssh-соединения.

Есть ли у какого-либо органа объяснение этому поведению, и, в частности, почему нагрузка все еще увеличивается, а процесса больше нет?

Я подозреваю, что мой инициатор iscsi просто недостаточно хорош для таких операций. Но я готов услышать о любом другом опыте по таким темам. PS: я нашел этот похожий вопрос, но он не получил четкого ответа imho:

https://faultserver.ru/questions/268907/high-load-and-oom-killer-on-domus-while-pvmove

С уважением.

1 ответ

Видите, что ~99% ва значение? Это твоя проблема. Вы столкнулись с серьезным конфликтом ресурсов в вашей подсистеме хранения.

Вам потребуется реализовать некоторый мониторинг, чтобы вы могли собирать метрики и определять, находится ли узкое место на уровне сети, на уровне физического диска или где-то еще целиком.

Другие вопросы по тегам