Сообщение об ошибке жесткого диска в Virtual Root Server
Заметив высокую нагрузку на наш виртуальный корневой сервер (2 x 1 ТБ RAID 1 Subset), я нашел эти сообщения в /var/log/messages (CentOS):
kernel: ata3.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x6 frozen
kernel: ata3.00: failed command: WRITE DMA
kernel: ata3.00: cmd ca/00:10:e0:1b:01/00:00:00:00:00/e1 tag 18 dma 8192 out
kernel: res 40/00:00:00:00:00/00:00:00:00:00/00 Emask 0x4 (timeout)
kernel: ata3.00: status: { DRDY }
kernel: ata3: hard resetting link
kernel: Clocksource tsc unstable (delta = -25761696872 ns)
kernel: ata3: SATA link up 1.5 Gbps (SStatus 113 SControl 300)
kernel: ata3.00: configured for UDMA/100
kernel: ata3.00: device reported invalid CHS sector 0
kernel: ata3: EH complete
Может ли кто-нибудь принести немного света? Это серьезная проблема с жестким диском или что-то еще? Как я могу проверить работоспособность виртуального жесткого диска (без возможности SMART)?
1 ответ
Диск не ответил вовремя и был сброшен ОС, это может означать много вещей, но наиболее распространенными являются два:
- Ошибка носителя - некоторые места на диске не могут быть прочитаны или записаны
- Ошибки соединения - плохой кабель
Эта конкретная ошибка без предыдущих ошибок на других ошибках или увеличенная задержка может указывать на ошибку носителя. Вы можете использовать smartctl, чтобы увидеть, есть ли ошибки CRC в интеллектуальных счетчиках.
Если это ошибка носителя, значит, у диска проблемы, так как команда, которая потерпела неудачу, является записью. Обычно запись не завершается с ошибкой носителя, и это считывание происходит позже. Возможно, предыдущее чтение заняло слишком много времени, и запись стала жертвой тайм-аута. Я также видел, как это произошло.
Вы также должны заметить, что ссылка была пересмотрена до 1,5 Гбит / с, если это первый сбой, возникший у вас в связи со связью, если это третий или более сбой в своем роде, чем это указывает на плохое поведение, которое я видел в Linux, что пытается облегчить сброс с уменьшенной скоростью, даже если сбой связан не с проблемой связи, а с ошибкой носителя.
Пункты действий:
- Проверьте смарт на наличие ошибок CRC
- Проверьте, сколько ошибок вы имели в прошлом
- Если вы хотите восстановить скорость 3Gbps, перезагрузите компьютер
- Проверьте, есть ли в ваших журналах сообщение "NCQ отключен из-за чрезмерных ошибок", это может объяснить замедление диска, но не саму проблему с диском
- Убедитесь, что у вас есть резервная копия, поскольку вполне возможно, что ваш диск выходит из строя