Лучший способ контролировать сетку компьютеров?
Я установил Sun Grid Engine на 10 узлов и один виртуальный главный хост.
Теперь я должен контролировать все ресурсы, прежде чем запускать их в производство, но я не знаю, какой из них лучший. Я пытался использовать xml-qstat, но он кажется нестабильным.
Любые советы или предложения?
У кого-нибудь есть опыт в этом?
Благодарю.
4 ответа
Вы могли бы использовать Ganglia. Мы используем Ganglia с тысячами узлов в Голландском вычислительном центре и, по большей части, это работает довольно хорошо, особенно если вы ищете исторические графики. Nagios используется для активного мониторинга.
Если я вас правильно понимаю, вам нужно следить за сеткой серверов. Какой вид мониторинга вы имеете в виду? Возможно, что-то вроде Nagios с некоторыми дополнительными скриптами может соответствовать вашим потребностям?
Здесь есть пример.
Для справки, Мунин ( http://munin-monitoring.org/) очень хорош.
Похоже, вас больше интересуют показатели, чем время безотказной работы или доступность. Цирконус ( http://circonus.com/) хорошо здесь подходит. Вы можете сопоставить практически любые метрики, которые можно импортировать через Resmon XML DTD.