Сообщение об ошибке жесткого диска в Virtual Root Server

Заметив высокую нагрузку на наш виртуальный корневой сервер (2 x 1 ТБ RAID 1 Subset), я нашел эти сообщения в /var/log/messages (CentOS):

kernel: ata3.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x6 frozen
kernel: ata3.00: failed command: WRITE DMA
kernel: ata3.00: cmd ca/00:10:e0:1b:01/00:00:00:00:00/e1 tag 18 dma 8192 out
kernel:         res 40/00:00:00:00:00/00:00:00:00:00/00 Emask 0x4 (timeout)
kernel: ata3.00: status: { DRDY }
kernel: ata3: hard resetting link
kernel: Clocksource tsc unstable (delta = -25761696872 ns)
kernel: ata3: SATA link up 1.5 Gbps (SStatus 113 SControl 300)
kernel: ata3.00: configured for UDMA/100
kernel: ata3.00: device reported invalid CHS sector 0
kernel: ata3: EH complete

Может ли кто-нибудь принести немного света? Это серьезная проблема с жестким диском или что-то еще? Как я могу проверить работоспособность виртуального жесткого диска (без возможности SMART)?

1 ответ

Решение

Диск не ответил вовремя и был сброшен ОС, это может означать много вещей, но наиболее распространенными являются два:

  1. Ошибка носителя - некоторые места на диске не могут быть прочитаны или записаны
  2. Ошибки соединения - плохой кабель

Эта конкретная ошибка без предыдущих ошибок на других ошибках или увеличенная задержка может указывать на ошибку носителя. Вы можете использовать smartctl, чтобы увидеть, есть ли ошибки CRC в интеллектуальных счетчиках.

Если это ошибка носителя, значит, у диска проблемы, так как команда, которая потерпела неудачу, является записью. Обычно запись не завершается с ошибкой носителя, и это считывание происходит позже. Возможно, предыдущее чтение заняло слишком много времени, и запись стала жертвой тайм-аута. Я также видел, как это произошло.

Вы также должны заметить, что ссылка была пересмотрена до 1,5 Гбит / с, если это первый сбой, возникший у вас в связи со связью, если это третий или более сбой в своем роде, чем это указывает на плохое поведение, которое я видел в Linux, что пытается облегчить сброс с уменьшенной скоростью, даже если сбой связан не с проблемой связи, а с ошибкой носителя.

Пункты действий:

  • Проверьте смарт на наличие ошибок CRC
  • Проверьте, сколько ошибок вы имели в прошлом
  • Если вы хотите восстановить скорость 3Gbps, перезагрузите компьютер
  • Проверьте, есть ли в ваших журналах сообщение "NCQ отключен из-за чрезмерных ошибок", это может объяснить замедление диска, но не саму проблему с диском
  • Убедитесь, что у вас есть резервная копия, поскольку вполне возможно, что ваш диск выходит из строя
Другие вопросы по тегам