Лучший способ контролировать сетку компьютеров?

Я установил Sun Grid Engine на 10 узлов и один виртуальный главный хост.

Теперь я должен контролировать все ресурсы, прежде чем запускать их в производство, но я не знаю, какой из них лучший. Я пытался использовать xml-qstat, но он кажется нестабильным.

Любые советы или предложения?

У кого-нибудь есть опыт в этом?

Благодарю.

4 ответа

Решение

Вы могли бы использовать Ganglia. Мы используем Ganglia с тысячами узлов в Голландском вычислительном центре и, по большей части, это работает довольно хорошо, особенно если вы ищете исторические графики. Nagios используется для активного мониторинга.

Если я вас правильно понимаю, вам нужно следить за сеткой серверов. Какой вид мониторинга вы имеете в виду? Возможно, что-то вроде Nagios с некоторыми дополнительными скриптами может соответствовать вашим потребностям?

Здесь есть пример.

Для справки, Мунин ( http://munin-monitoring.org/) очень хорош.

Похоже, вас больше интересуют показатели, чем время безотказной работы или доступность. Цирконус ( http://circonus.com/) хорошо здесь подходит. Вы можете сопоставить практически любые метрики, которые можно импортировать через Resmon XML DTD.

Другие вопросы по тегам