Основанное на LVM ядре KVM ядро ... Ошибка ввода-вывода на устройстве. Сбой привода?
В настоящее время настраивается небольшой хост KVM для запуска нескольких виртуальных машин для малого бизнеса. Сервер имеет 2 диска в программном обеспечении md RAID 1, затем я установил его как PV в настройке LVM. Все гости и хосты - CentOS 6.4 64bit.
/
В разделе гостей KVM находятся образы дисков, но с одним конкретным гостем, к которому предъявляются более высокие требования к вводу-выводу, я добавил второй виртуальный жесткий диск в виртуальную машину, который является логическим томом из пула хранения хоста.
Этим вечером я выполнял довольно интенсивный ввод-вывод в гостевой системе, извлекая многотомный архив данных объемом 7 Гц объемом 60 ГБ. 7z перебрал около 1/5 пути с E_FAIL
, Я пытался переместить некоторые файлы на этом LV
диск и был встречен с "не может двигаться... файловая система только для чтения". Все устройства смонтированы rw
, Я заглянул в /var/log/messages
и увидел следующие ошибки...
Nov 22 21:47:52 mail kernel: Buffer I/O error on device vdb1, logical block 47307631
Nov 22 21:47:52 mail kernel: lost page write due to I/O error on vdb1
Nov 22 21:47:52 mail kernel: Buffer I/O error on device vdb1, logical block 47307632
Nov 22 21:47:52 mail kernel: lost page write due to I/O error on vdb1
Nov 22 21:47:52 mail kernel: Buffer I/O error on device vdb1, logical block 47307633
Nov 22 21:47:55 mail kernel: end_request: I/O error, dev vdb, sector 378473448
Nov 22 21:47:55 mail kernel: end_request: I/O error, dev vdb, sector 378474456
Nov 22 21:47:55 mail kernel: end_request: I/O error, dev vdb, sector 378475464
Nov 22 21:47:55 mail kernel: JBD: Detected IO errors while flushing file data on vdb1
Nov 22 21:47:55 mail kernel: end_request: I/O error, dev vdb, sector 255779688
Nov 22 21:47:55 mail kernel: Aborting journal on device vdb1.
Nov 22 21:47:55 mail kernel: end_request: I/O error, dev vdb, sector 255596560
Nov 22 21:47:55 mail kernel: JBD: I/O error detected when updating journal superblock for vdb1.
Nov 22 21:48:06 mail kernel: __ratelimit: 20 callbacks suppressed
Nov 22 21:48:06 mail kernel: __ratelimit: 2295 callbacks suppressed
Nov 22 21:48:06 mail kernel: Buffer I/O error on device vdb1, logical block 47270479
Nov 22 21:48:06 mail kernel: lost page write due to I/O error on vdb1
Nov 22 21:48:06 mail kernel: Buffer I/O error on device vdb1, logical block 47271504
Nov 22 21:48:06 mail kernel: end_request: I/O error, dev vdb, sector 378116680
Nov 22 21:48:06 mail kernel: end_request: I/O error, dev vdb, sector 378157680
Nov 22 21:48:06 mail kernel: end_request: I/O error, dev vdb, sector 378432440
Nov 22 21:51:25 mail kernel: EXT3-fs (vdb1): error: ext3_journal_start_sb: Detected aborted journal
Nov 22 21:51:25 mail kernel: EXT3-fs (vdb1): error: remounting filesystem read-only
Nov 22 21:51:55 mail kernel: __ratelimit: 35 callbacks suppressed
Nov 22 21:51:55 mail kernel: __ratelimit: 35 callbacks suppressed
Nov 22 21:51:55 mail kernel: Buffer I/O error on device vdb1, logical block 64003824
Nov 22 21:51:55 mail kernel: Buffer I/O error on device vdb1, logical block 64003839
Nov 22 21:51:55 mail kernel: Buffer I/O error on device vdb1, logical block 256
Nov 22 21:51:55 mail kernel: Buffer I/O error on device vdb1, logical block 32
Nov 22 21:51:55 mail kernel: Buffer I/O error on device vdb1, logical block 64
Nov 22 21:51:55 mail kernel: end_request: I/O error, dev vdb, sector 6144
Nov 22 21:55:06 mail yum[19139]: Installed: lsof-4.82-4.el6.x86_64
Nov 22 21:59:47 mail kernel: __ratelimit: 1 callbacks suppressed
Nov 22 22:00:01 mail kernel: __ratelimit: 1 callbacks suppressed
Nov 22 22:00:01 mail kernel: Buffer I/O error on device vdb1, logical block 64003824
Nov 22 22:00:01 mail kernel: Buffer I/O error on device vdb1, logical block 512
Там было намного больше, полная выдержка здесь http://pastebin.com/vH8SDrCg
Обратите внимание, что при "обновлении суперблока журнала" возникает ошибка ввода-вывода, после чего том перемонтируется как доступный только для чтения из-за прерванного журнала.
Так что пора смотреть на хозяина.
cat /proc/mdstat
возвращаетсяUU
для обоих массивов RAID 1 (boot
и основной PV).mdadm --detail
шоуstate: clean
а такжеstate: active
соответственноТипичные команды LVM
pvs
,vgs
а такжеlvs
все возвращают следующую ошибку:
/dev/VolGroup00/lv_mail: read failed after 0 of 4096 at 262160711680: Input/output error
/dev/VolGroup00/lv_mail: read failed after 0 of 4096 at 262160769024: Input/output error
/dev/VolGroup00/lv_mail: read failed after 0 of 4096 at 0: Input/output error
/dev/VolGroup00/lv_mail: read failed after 0 of 4096 at 4096: Input/output error
VG #PV #LV #SN Attr VSize VFree
VolGroup00 1 4 1 wz--n- 930.75g 656.38g
/var/log/messages
на хосте видно это:
Nov 22 21:47:53 localhost kernel: device-mapper: snapshots: Invalidating snapshot: Unable to allocate exception.
Nov 22 22:11:04 localhost kernel: Buffer I/O error on device dm-3, logical block 0
Nov 22 22:11:04 localhost kernel: Buffer I/O error on device dm-3, logical block 1
Nov 22 22:11:04 localhost kernel: Buffer I/O error on device dm-3, logical block 2
Nov 22 22:11:04 localhost kernel: Buffer I/O error on device dm-3, logical block 3
Nov 22 22:11:04 localhost kernel: Buffer I/O error on device dm-3, logical block 0
Nov 22 22:11:04 localhost kernel: Buffer I/O error on device dm-3, logical block 64004095
Nov 22 22:11:04 localhost kernel: Buffer I/O error on device dm-3, logical block 64004095
Nov 22 22:11:04 localhost kernel: Buffer I/O error on device dm-3, logical block 0
- Короткая самопроверка с
smartctl
ничего не обнаружил ни на одном физическом диске. В данных SMART также не было тревожных счетчиков ошибок, большинство из них0
кроме включения часов, время раскрутки, температура. Даже мощность часов была относительно низкой, около 150 дней или около того. В настоящее время у меня есть длительные самопроверки.
Итак, основываясь на всем этом, какова вероятность того, что это начало отказа диска?
Стоит запустить fsck
или же badblocks
в хосте?
Я не хочу вызывать полную панику ядра на этом этапе. Я бы подумал mdstat
покажет сбойный член массива, примерно через 1 час после события.
Эта машина является выделенным сервером, поэтому у меня нет физического доступа. Я проверю консоль через DRAC в ближайшее время, но я ожидаю увидеть кучу ошибок ввода-вывода на консоли. У меня нет доступа к виртуальным носителям, поэтому я не могу загрузить systemrescuecd для выполнения ремонта, поэтому я немного опасаюсь перезагрузки на этом этапе.