Очень долгое время ожидания ввода-вывода
Следующий сценарий произошел дважды с различными контроллерами RAID. Один из них был LSI MegaRAID с RAID5, второй - HP Smart Array E200i с RAID1. Сначала сервер работает без сбоев в течение нескольких лет. Тогда люди начинают жаловаться на производительность. Тогда оказывается, что это не просто "проблема приложения", потому что простые дисковые операции (например, ls в каталоге с 20-30 файлами) могут занимать до 5 секунд. Вот что vmstat сообщает во время большой нагрузки:
procs -----------memory------------ ---swap-- -----io---- -system-- ----cpu-----
r b swpd free buff cache si so bi bo in cs us sy id wa
1 8 8944 126004 20 1597500 0 0 1666 5935 282 833 10 3 0 86
1 16 8944 122276 20 1599636 0 0 612 6300 314 615 10 3 0 87
1 12 8944 123740 20 1599332 0 0 811 5103 188 794 2 2 0 96
0 19 8944 121916 20 1600808 0 0 150 7299 163 858 1 1 0 97
0 16 8944 239244 20 1612256 0 0 647 2522 156 798 0 1 0 99
0 6 8944 215308 20 1643712 0 0 3030 3060 201 956 33 5 0 62
1 13 8944 186352 20 1672540 0 0 143 6173 166 931 14 8 0 78
8 2 8944 137368 20 1710432 0 0 111 6425 171 833 48 4 0 48
1 11 8944 122500 20 1725892 0 0 306 5222 153 746 69 4 0 27
24 13 8944 128444 20 1729680 0 0 380 5210 170 4484 16 6 8 70
0 4 8944 124956 20 1731228 0 0 389 4933 272 761 4 2 0 93
0 6 8944 123004 20 1735780 0 0 15 7856 209 682 1 2 7 90
Таким образом, сервер снят с производства и протестирован с помощью bonnie++ и проверен с помощью vmstat, который дает почти те же результаты. Так что казалось бы, что диски неисправны. Однако при запросе контроллера RAID кажется, что и логический диск, и физические диски в порядке. Журналы ядра также не содержат сообщений, которые могут указывать на проблему с операциями на диске.
Итак, мой вопрос: как мне отладить эту проблему дальше? Должен ли я заменить контроллер / диски и просто посмотреть, какая ситуация с заменой стала лучше? Или, может быть, какая-то команда может быть выполнена и ее результаты изучены, чтобы точно определить местонахождение проблемы?
1 ответ
Может быть, запись-кеш был отключен? возможно, батарея скончалась и переключилась с обратной записи на сквозную?
некоторые дешевые аппаратные рейды без батареи и с кешем по умолчанию включают кеш только для чтения - может ли быть так, что вы тоже настроили использование записи-кеша, а контроллер "потерял" настройки?
кроме того - может быть, один из дисков неисправен? попробуйте просмотреть журналы рейдов [инструмент командной строки MegaCli должен помочь].