Автоматический перезапуск системы во время стресс-теста FIO на массиве RAID0 (6 твердотельных накопителей), созданном mdadm под ОС Yocto.
Я столкнулся с проблемой при выполнении стресс-теста FIO на RAID0, построенном из 6 твердотельных накопителей через mdadm под ОС Yocto. Ниже приведена информация:
- 6 твердотельных накопителей PCIe NVMe относятся к тому же поставщику и модели, что и автомобильному классу емкостью 1,02 ТБ.
- Параметр FIO, используемый для теста:fio --filename=/dev/md127 --direct=1 --rw=randrw --bs=64k --ioengine=libaio --iolength=64 --runtime=43200 --numjobs=16 --time_based --group_reporting --name=randomrw --eta-newline=1
- Автоматический перезапуск системы после 30 минут работы.
Вопрос в том, что я хотел бы знать, почему это может привести к случайному автоматическому перезапуску системы: проблема с программным обеспечением, ограничение программного обеспечения или аппаратная проблема? Не подскажете, как изолировать проблему?
Я собираюсь удалить RAID0 и попробовать снова с теми же параметрами FIO и сначала на одном SSD. Если его невозможно воспроизвести, я снова запущу тест на всех 6 SSD с теми же параметрами, но без режима RAID.
Спасибо, Джеки
2 ответа
Мы нашли это:
- Оба режима RAID0 и не-RAID не работают с одним и тем же параметром FIO (только --filename имеет другую цель).
- При возникновении проблемы повторный запуск теста с тем же параметром FIO немедленно приведет к повторной проблеме, за исключением того, что вы форматируете SSD, но снова произойдет сбой примерно через 30 минут работы.
- Не встречал этой проблемы с данным параметром --size.
- При возникновении проблемы SSD обнаруживает текущую проблему. (принимаем: до 2 А, перегрузка по току: 5,5 А)
Просто опубликуйте ту же проблему в FIO GitHub и получите ответ от разработчика FIO, см. снимок экрана ниже.