Что-то не так с программным обеспечением Linux RAID1
У меня есть программный RAID1, и теперь каждую неделю Linux синхронизирует мой объем рейда.
Я проверил cat /proc/mdstat
:
*Personalities : [raid1]
md3 : active raid1 sda5[0] sdb5[1]
1822445428 blocks super 1.0 [2/2] [UU]
md1 : active raid1 sdb2[1] sda2[0]
524276 blocks super 1.0 [2/2] [UU]
md2 : active raid1 sda3[0] sdb3[1]
1073741688 blocks super 1.0 [2/2] [UU]
[============>........] check = 61.9% (665688192/1073741688) finish=203.8min speed=33367K/sec
md0 : active raid1 sda1[0] sdb1[1]
33553336 blocks super 1.0 [2/2] [UU]
unused devices: <none>*
Кажется, это нормально. Но я проверил / журнал / сообщения и нашел:
41/40:80:20:48:c3/00:00:04:00:00/00 Emask 0x409 (media error) <F>
May 26 10:45:45 CentOS-62-64-minimal kernel: ata2.00: status: { DRDY ERR }
May 26 10:45:45 CentOS-62-64-minimal kernel: ata2.00: error: { UNC }
May 26 10:45:45 CentOS-62-64-minimal kernel: ata2.00: configured for UDMA/133
May 26 10:45:45 CentOS-62-64-minimal kernel: ata2: EH complete
May 26 10:45:48 CentOS-62-64-minimal kernel: ata2.00: exception Emask 0x0 SAct 0x1 SErr 0x0 action 0x0
May 26 10:45:48 CentOS-62-64-minimal kernel: ata2.00: irq_stat 0x40000008
May 26 10:45:48 CentOS-62-64-minimal kernel: ata2.00: failed command: READ FPDMA QUEUED
May 26 10:45:48 CentOS-62-64-minimal kernel: ata2.00: cmd 60/80:00:00:48:c3/00:00:04:00:00/40 tag 0 ncq 65536 in
May 26 10:45:48 CentOS-62-64-minimal kernel: res 41/40:80:20:48:c3/00:00:04:00:00/00 Emask 0x409 (media error) <F>
May 26 10:45:48 CentOS-62-64-minimal kernel: ata2.00: status: { DRDY ERR }
May 26 10:45:48 CentOS-62-64-minimal kernel: ata2.00: error: { UNC }
May 26 10:45:48 CentOS-62-64-minimal kernel: ata2.00: configured for UDMA/133
May 26 10:45:48 CentOS-62-64-minimal kernel: sd 1:0:0:0: [sdb] Unhandled sense code
May 26 10:45:48 CentOS-62-64-minimal kernel: sd 1:0:0:0: [sdb] Result: hostbyte=DID_OK driverbyte=DRIVER_SENSE
May 26 10:45:48 CentOS-62-64-minimal kernel: sd 1:0:0:0: [sdb] Sense Key : Medium Error [current] [descriptor]
Любая помощь с этим? Что это может быть и что мне нужно делать?
2 ответа
Обычно эти ошибки означают, что диск (/dev/sdb в вашем случае) может скоро выйти из строя.
Вы можете использовать smartctl для выполнения расширенного самотестирования SMART, чтобы увидеть, появляется ли какая-либо ошибка.
Вы можете сделать расширенную проверку, запустив
smartctl -t long /dev/sdb
Вы можете просмотреть результаты (и многое другое), запустив
smartctl -a /dev/sdb
Также ищите Relocated_Sector_Ct
а также Offline_Uncorrectable
ценности. Они должны быть 0. Если Relocated_Sector_Ct
Если> 0, то это означает, что диск уже переместил некоторые труднодоступные для чтения сектора в свободную область диска (это нормальное поведение - но указывает, что вскоре диск может выйти из строя). Если Offline_Uncorrectable
> 0, то это означает, что диск выходит из строя.
Пожалуйста, опубликуйте результаты smartctl -a /dev/sdb
,
Если smartctl не установлен, вы можете установить его, запустив
yum install smartmontools -y
Также эти ошибки могут быть вызваны неисправным источником питания накопителя или кабелем SATA.
Кажется твой sdb
диск не работает. Замените его, пока не стало слишком поздно. Вы можете попробовать использовать средства SMART для подтверждения этой диагностики с помощью такой команды:
sudo smartctl -q errorsonly -H -l selftest /dev/hda