Основанное на LVM ядре KVM ядро ​​... Ошибка ввода-вывода на устройстве. Сбой привода?

В настоящее время настраивается небольшой хост KVM для запуска нескольких виртуальных машин для малого бизнеса. Сервер имеет 2 диска в программном обеспечении md RAID 1, затем я установил его как PV в настройке LVM. Все гости и хосты - CentOS 6.4 64bit.

/ В разделе гостей KVM находятся образы дисков, но с одним конкретным гостем, к которому предъявляются более высокие требования к вводу-выводу, я добавил второй виртуальный жесткий диск в виртуальную машину, который является логическим томом из пула хранения хоста.

Этим вечером я выполнял довольно интенсивный ввод-вывод в гостевой системе, извлекая многотомный архив данных объемом 7 Гц объемом 60 ГБ. 7z перебрал около 1/5 пути с E_FAIL, Я пытался переместить некоторые файлы на этом LV диск и был встречен с "не может двигаться... файловая система только для чтения". Все устройства смонтированы rw, Я заглянул в /var/log/messages и увидел следующие ошибки...

Nov 22 21:47:52 mail kernel: Buffer I/O error on device vdb1, logical block 47307631
Nov 22 21:47:52 mail kernel: lost page write due to I/O error on vdb1
Nov 22 21:47:52 mail kernel: Buffer I/O error on device vdb1, logical block 47307632
Nov 22 21:47:52 mail kernel: lost page write due to I/O error on vdb1
Nov 22 21:47:52 mail kernel: Buffer I/O error on device vdb1, logical block 47307633
Nov 22 21:47:55 mail kernel: end_request: I/O error, dev vdb, sector 378473448
Nov 22 21:47:55 mail kernel: end_request: I/O error, dev vdb, sector 378474456
Nov 22 21:47:55 mail kernel: end_request: I/O error, dev vdb, sector 378475464
Nov 22 21:47:55 mail kernel: JBD: Detected IO errors while flushing file data on vdb1
Nov 22 21:47:55 mail kernel: end_request: I/O error, dev vdb, sector 255779688
Nov 22 21:47:55 mail kernel: Aborting journal on device vdb1.
Nov 22 21:47:55 mail kernel: end_request: I/O error, dev vdb, sector 255596560
Nov 22 21:47:55 mail kernel: JBD: I/O error detected when updating journal superblock for vdb1.
Nov 22 21:48:06 mail kernel: __ratelimit: 20 callbacks suppressed
Nov 22 21:48:06 mail kernel: __ratelimit: 2295 callbacks suppressed
Nov 22 21:48:06 mail kernel: Buffer I/O error on device vdb1, logical block 47270479
Nov 22 21:48:06 mail kernel: lost page write due to I/O error on vdb1
Nov 22 21:48:06 mail kernel: Buffer I/O error on device vdb1, logical block 47271504
Nov 22 21:48:06 mail kernel: end_request: I/O error, dev vdb, sector 378116680
Nov 22 21:48:06 mail kernel: end_request: I/O error, dev vdb, sector 378157680
Nov 22 21:48:06 mail kernel: end_request: I/O error, dev vdb, sector 378432440
Nov 22 21:51:25 mail kernel: EXT3-fs (vdb1): error: ext3_journal_start_sb: Detected aborted journal
Nov 22 21:51:25 mail kernel: EXT3-fs (vdb1): error: remounting filesystem read-only
Nov 22 21:51:55 mail kernel: __ratelimit: 35 callbacks suppressed
Nov 22 21:51:55 mail kernel: __ratelimit: 35 callbacks suppressed
Nov 22 21:51:55 mail kernel: Buffer I/O error on device vdb1, logical block 64003824
Nov 22 21:51:55 mail kernel: Buffer I/O error on device vdb1, logical block 64003839
Nov 22 21:51:55 mail kernel: Buffer I/O error on device vdb1, logical block 256
Nov 22 21:51:55 mail kernel: Buffer I/O error on device vdb1, logical block 32
Nov 22 21:51:55 mail kernel: Buffer I/O error on device vdb1, logical block 64
Nov 22 21:51:55 mail kernel: end_request: I/O error, dev vdb, sector 6144
Nov 22 21:55:06 mail yum[19139]: Installed: lsof-4.82-4.el6.x86_64
Nov 22 21:59:47 mail kernel: __ratelimit: 1 callbacks suppressed
Nov 22 22:00:01 mail kernel: __ratelimit: 1 callbacks suppressed
Nov 22 22:00:01 mail kernel: Buffer I/O error on device vdb1, logical block 64003824
Nov 22 22:00:01 mail kernel: Buffer I/O error on device vdb1, logical block 512

Там было намного больше, полная выдержка здесь http://pastebin.com/vH8SDrCg
Обратите внимание, что при "обновлении суперблока журнала" возникает ошибка ввода-вывода, после чего том перемонтируется как доступный только для чтения из-за прерванного журнала.

Так что пора смотреть на хозяина.

  • cat /proc/mdstat возвращается UU для обоих массивов RAID 1 (boot и основной PV).

  • mdadm --detail шоу state: clean а также state: active соответственно

  • Типичные команды LVM pvs, vgs а также lvs все возвращают следующую ошибку:

  /dev/VolGroup00/lv_mail: read failed after 0 of 4096 at 262160711680: Input/output error
  /dev/VolGroup00/lv_mail: read failed after 0 of 4096 at 262160769024: Input/output error
  /dev/VolGroup00/lv_mail: read failed after 0 of 4096 at 0: Input/output error
  /dev/VolGroup00/lv_mail: read failed after 0 of 4096 at 4096: Input/output error
  VG         #PV #LV #SN Attr   VSize   VFree  
  VolGroup00   1   4   1 wz--n- 930.75g 656.38g
  • /var/log/messages на хосте видно это:
Nov 22 21:47:53 localhost kernel: device-mapper: snapshots: Invalidating snapshot: Unable to allocate exception.
Nov 22 22:11:04 localhost kernel: Buffer I/O error on device dm-3, logical block 0
Nov 22 22:11:04 localhost kernel: Buffer I/O error on device dm-3, logical block 1
Nov 22 22:11:04 localhost kernel: Buffer I/O error on device dm-3, logical block 2
Nov 22 22:11:04 localhost kernel: Buffer I/O error on device dm-3, logical block 3
Nov 22 22:11:04 localhost kernel: Buffer I/O error on device dm-3, logical block 0
Nov 22 22:11:04 localhost kernel: Buffer I/O error on device dm-3, logical block 64004095
Nov 22 22:11:04 localhost kernel: Buffer I/O error on device dm-3, logical block 64004095
Nov 22 22:11:04 localhost kernel: Buffer I/O error on device dm-3, logical block 0
  • Короткая самопроверка с smartctl ничего не обнаружил ни на одном физическом диске. В данных SMART также не было тревожных счетчиков ошибок, большинство из них 0 кроме включения часов, время раскрутки, температура. Даже мощность часов была относительно низкой, около 150 дней или около того. В настоящее время у меня есть длительные самопроверки.

Итак, основываясь на всем этом, какова вероятность того, что это начало отказа диска?
Стоит запустить fsck или же badblocks в хосте?
Я не хочу вызывать полную панику ядра на этом этапе. Я бы подумал mdstat покажет сбойный член массива, примерно через 1 час после события.

Эта машина является выделенным сервером, поэтому у меня нет физического доступа. Я проверю консоль через DRAC в ближайшее время, но я ожидаю увидеть кучу ошибок ввода-вывода на консоли. У меня нет доступа к виртуальным носителям, поэтому я не могу загрузить systemrescuecd для выполнения ремонта, поэтому я немного опасаюсь перезагрузки на этом этапе.

0 ответов

Другие вопросы по тегам