Очень долгое время ожидания ввода-вывода

Следующий сценарий произошел дважды с различными контроллерами RAID. Один из них был LSI MegaRAID с RAID5, второй - HP Smart Array E200i с RAID1. Сначала сервер работает без сбоев в течение нескольких лет. Тогда люди начинают жаловаться на производительность. Тогда оказывается, что это не просто "проблема приложения", потому что простые дисковые операции (например, ls в каталоге с 20-30 файлами) могут занимать до 5 секунд. Вот что vmstat сообщает во время большой нагрузки:

procs -----------memory------------ ---swap-- -----io---- -system-- ----cpu-----
 r  b   swpd   free   buff   cache   si   so    bi    bo   in   cs   us sy id wa
 1  8   8944 126004     20 1597500    0    0  1666  5935  282  833   10  3  0 86
 1 16   8944 122276     20 1599636    0    0   612  6300  314  615   10  3  0 87
 1 12   8944 123740     20 1599332    0    0   811  5103  188  794    2  2  0 96
 0 19   8944 121916     20 1600808    0    0   150  7299  163  858    1  1  0 97
 0 16   8944 239244     20 1612256    0    0   647  2522  156  798    0  1  0 99
 0  6   8944 215308     20 1643712    0    0  3030  3060  201  956   33  5  0 62
 1 13   8944 186352     20 1672540    0    0   143  6173  166  931   14  8  0 78
 8  2   8944 137368     20 1710432    0    0   111  6425  171  833   48  4  0 48
 1 11   8944 122500     20 1725892    0    0   306  5222  153  746   69  4  0 27
24 13   8944 128444     20 1729680    0    0   380  5210  170 4484   16  6  8 70
 0  4   8944 124956     20 1731228    0    0   389  4933  272  761    4  2  0 93
 0  6   8944 123004     20 1735780    0    0    15  7856  209  682    1  2  7 90

Таким образом, сервер снят с производства и протестирован с помощью bonnie++ и проверен с помощью vmstat, который дает почти те же результаты. Так что казалось бы, что диски неисправны. Однако при запросе контроллера RAID кажется, что и логический диск, и физические диски в порядке. Журналы ядра также не содержат сообщений, которые могут указывать на проблему с операциями на диске.

Итак, мой вопрос: как мне отладить эту проблему дальше? Должен ли я заменить контроллер / диски и просто посмотреть, какая ситуация с заменой стала лучше? Или, может быть, какая-то команда может быть выполнена и ее результаты изучены, чтобы точно определить местонахождение проблемы?

1 ответ

Решение

Может быть, запись-кеш был отключен? возможно, батарея скончалась и переключилась с обратной записи на сквозную?

некоторые дешевые аппаратные рейды без батареи и с кешем по умолчанию включают кеш только для чтения - может ли быть так, что вы тоже настроили использование записи-кеша, а контроллер "потерял" настройки?

кроме того - может быть, один из дисков неисправен? попробуйте просмотреть журналы рейдов [инструмент командной строки MegaCli должен помочь].

Другие вопросы по тегам