Как собрать данные о производительности сервера во время недоступности / периода простоя с помощью Nagios?
Некоторые службы времени и хост перестают отвечать из-за низкой производительности сервера. Я имею в виду, что если по какой-либо причине (может быть много доступа к службам параллелизма, дорогостоящее выполнение резервного копирования на сервере или что-то, что потребляет тонны серверных ресурсов), производительность сервера сильно снижается, что может привести к тому, что сервер не сможет установить любую "нормальную сетевую связь" (без запуска любых стандартных таймаутов, определенных для такой связи).
Знание данных о производительности хоста (cpu, memory, ...) в случае доступности в течение этого периода (хост не выключен и, несмотря на его снижение производительности, все еще позволяет плагинам собирать данные о производительности) может быть очень полезным для sysadmin, чтобы попытаться определить причину проблема или, по крайней мере, если производительность хоста была хорошей и не мешала работе хоста / сервиса.
Эта проблема может быть решена с использованием удаленного активного (NRPE) или удаленного пассивного (NSCA), если такие удаленные решения могут хранить (буферизованные) данные perf для отправки на центральный сервер Nagios, если это позволяет производительность хоста или перебои в работе сети. Я прочитал документацию по обоим решениям и не могу найти ни ссылки на такой механизм буфера, ни на то, что произошло в случае, если NSCA не может достичь сервера Nagios.
Есть идеи, как решить эту проблему? так полезно для судебного анализа.
РЕДАКТИРОВАТЬ:
Мой вопрос не в том, какие инструменты я могу использовать для отладки проблем perf или сбора данных perf для анализа, а в том, как собирать (используя Nagios) данные хоста perf даже во время простоя сети для последующего анализа (вид криминалистического анализа). Идея состоит в том, чтобы интегрировать такие данные в устройства графики Nagios, такие как pnp4nagios и NagiosGrapther. Я знаю, что мог бы устанавливать инструменты, такие как Cacti, на каждом своем хосте и иметь своего рода избыточность сбора данных о производительности, но я действительно хочу избежать этого и попытаться решить все требования к анализу производительности с помощью одного инструмента: Nagios
1 ответ
Я не уверен насчет Nagios, но если вы сможете войти на сервер, вы соберете нижеприведенную информацию, которая поможет вам сузить проблему. С помощью приведенной ниже команды вы можете определить, кто потребляет больше ресурсов процессора и памяти. Или система находится в условиях OOM.
top -n 5 -b
vmstat 1 50
iostat -x 2 10
ps -aufx
sar 1 50
cat /proc/meminfo
cat /proc/buddyinfo