Автоматический перезапуск системы во время стресс-теста FIO на массиве RAID0 (6 твердотельных накопителей), созданном mdadm под ОС Yocto.

Я столкнулся с проблемой при выполнении стресс-теста FIO на RAID0, построенном из 6 твердотельных накопителей через mdadm под ОС Yocto. Ниже приведена информация:

  1. 6 твердотельных накопителей PCIe NVMe относятся к тому же поставщику и модели, что и автомобильному классу емкостью 1,02 ТБ.
  2. Параметр FIO, используемый для теста:fio --filename=/dev/md127 --direct=1 --rw=randrw --bs=64k --ioengine=libaio --iolength=64 --runtime=43200 --numjobs=16 --time_based --group_reporting --name=randomrw --eta-newline=1
  3. Автоматический перезапуск системы после 30 минут работы.

Вопрос в том, что я хотел бы знать, почему это может привести к случайному автоматическому перезапуску системы: проблема с программным обеспечением, ограничение программного обеспечения или аппаратная проблема? Не подскажете, как изолировать проблему?

Я собираюсь удалить RAID0 и попробовать снова с теми же параметрами FIO и сначала на одном SSD. Если его невозможно воспроизвести, я снова запущу тест на всех 6 SSD с теми же параметрами, но без режима RAID.

Спасибо, Джеки

2 ответа

Мы нашли это:

  1. Оба режима RAID0 и не-RAID не работают с одним и тем же параметром FIO (только --filename имеет другую цель).
  2. При возникновении проблемы повторный запуск теста с тем же параметром FIO немедленно приведет к повторной проблеме, за исключением того, что вы форматируете SSD, но снова произойдет сбой примерно через 30 минут работы.
  3. Не встречал этой проблемы с данным параметром --size.
  4. При возникновении проблемы SSD обнаруживает текущую проблему. (принимаем: до 2 А, перегрузка по току: 5,5 А)

Просто опубликуйте ту же проблему в FIO GitHub и получите ответ от разработчика FIO, см. снимок экрана ниже.

GitHub

Другие вопросы по тегам