Как собрать данные о производительности сервера во время недоступности / периода простоя с помощью Nagios?

Question

Как собрать данные о производительности сервера во время недоступности / периода простоя с помощью Nagios?

Некоторые службы времени и хост перестают отвечать из-за низкой производительности сервера. Я имею в виду, что если по какой-либо причине (может быть много доступа к службам параллелизма, дорогостоящее выполнение резервного копирования на сервере или что-то, что потребляет тонны серверных ресурсов), производительность сервера сильно снижается, что может привести к тому, что сервер не сможет установить любую "нормальную сетевую связь" (без запуска любых стандартных таймаутов, определенных для такой связи).

Знание данных о производительности хоста (cpu, memory, ...) в случае доступности в течение этого периода (хост не выключен и, несмотря на его снижение производительности, все еще позволяет плагинам собирать данные о производительности) может быть очень полезным для sysadmin, чтобы попытаться определить причину проблема или, по крайней мере, если производительность хоста была хорошей и не мешала работе хоста / сервиса.

Эта проблема может быть решена с использованием удаленного активного (NRPE) или удаленного пассивного (NSCA), если такие удаленные решения могут хранить (буферизованные) данные perf для отправки на центральный сервер Nagios, если это позволяет производительность хоста или перебои в работе сети. Я прочитал документацию по обоим решениям и не могу найти ни ссылки на такой механизм буфера, ни на то, что произошло в случае, если NSCA не может достичь сервера Nagios.

Есть идеи, как решить эту проблему? так полезно для судебного анализа.

РЕДАКТИРОВАТЬ:

Мой вопрос не в том, какие инструменты я могу использовать для отладки проблем perf или сбора данных perf для анализа, а в том, как собирать (используя Nagios) данные хоста perf даже во время простоя сети для последующего анализа (вид криминалистического анализа). Идея состоит в том, чтобы интегрировать такие данные в устройства графики Nagios, такие как pnp4nagios и NagiosGrapther. Я знаю, что мог бы устанавливать инструменты, такие как Cacti, на каждом своем хосте и иметь своего рода избыточность сбора данных о производительности, но я действительно хочу избежать этого и попытаться решить все требования к анализу производительности с помощью одного инструмента: Nagios

1

performance nagios performance-monitoring ncsa

Источник

gsi-frank 30 авг '13 в 12:54

1 ответ

Другие вопросы по тегам performance nagios performance-monitoring ncsa

Vin 31 авг '13 в 04:56 2013-08-31 04:56 · Answer 1 · 2013-08-31 04:56

Я не уверен насчет Nagios, но если вы сможете войти на сервер, вы соберете нижеприведенную информацию, которая поможет вам сузить проблему. С помощью приведенной ниже команды вы можете определить, кто потребляет больше ресурсов процессора и памяти. Или система находится в условиях OOM.

top -n 5 -b 
vmstat 1 50 
iostat -x 2 10
ps -aufx 
sar 1 50 
cat /proc/meminfo 
cat /proc/buddyinfo