Очень высокая нагрузка при пвмове в дому
У меня было довольно плохое время этим вечером. Мне пришлось перенести LVM2 LV с одного PV на другой (исходный PV, поддерживаемый NFS, хранится на vdisk, целевой PV, поддерживаемый iscsi LUN). Перемещение небольших LV этого VG (несколько гигабит) прошло нормально, но у меня было 400 ГБ LV, и через некоторое время это привело к тому, что мой гость достиг более 150 loadavg, так что он застрял, и мне пришлось с трудом перезагрузить его.
Я попытался возобновить pvmove после удвоения памяти и размера процессора (16 ГБ и 4vcpu). Нагрузка стала очень высокой почти сразу. Достигнув 60 минут загрузки из 5 минут, я решил убить процесс pvmove (скрещивание пальцев). Процесс был завершен должным образом, или, по крайней мере, его больше не было в таблице процессов согласно ps и top, но нагрузка продолжала увеличиваться. Достигнув более 90, прежде чем я решил, перезагрузка была моей единственной возможностью. Хотя процесс pvmove больше не выполнялся, нагрузка никогда не уменьшалась, и ЦП почти исключительно ожидал ввода-вывода, как показано ниже (вероятно, через 40 минут после того, как я остановил процесс, который работал в течение 5 минут максимум).
top - 21:18:44 up 12:26, 1 user, load average: 93.07, 92.53, 89.07
Tasks: 405 total, 1 running, 402 sleeping, 2 stopped, 0 zombie
Cpu(s): 0.1%us, 0.1%sy, 0.0%ni, 0.0%id, 99.8%wa, 0.0%hi, 0.0%si, 0.0%st
Mem: 16021672k total, 15363796k used, 657876k free, 427060k buffers
Swap: 2095100k total, 36k used, 2095064k free, 11856520k cached
У меня все еще был открытый и отзывчивый терминал ssh. Действия с файловой системой казались довольно отзывчивыми (listng dir), но перезапуск демона занял много времени, и было невозможно открыть новые ssh-соединения.
Есть ли у какого-либо органа объяснение этому поведению, и, в частности, почему нагрузка все еще увеличивается, а процесса больше нет?
Я подозреваю, что мой инициатор iscsi просто недостаточно хорош для таких операций. Но я готов услышать о любом другом опыте по таким темам. PS: я нашел этот похожий вопрос, но он не получил четкого ответа imho:
https://faultserver.ru/questions/268907/high-load-and-oom-killer-on-domus-while-pvmove
С уважением.
1 ответ
Видите, что ~99% ва значение? Это твоя проблема. Вы столкнулись с серьезным конфликтом ресурсов в вашей подсистеме хранения.
Вам потребуется реализовать некоторый мониторинг, чтобы вы могли собирать метрики и определять, находится ли узкое место на уровне сети, на уровне физического диска или где-то еще целиком.