Модуль GPU Nvidia для графического процессора Ganglia: нужно ли исправлять веб-интерфейс ganglia?

Я пытаюсь добавить модуль GPU Nvidia в ганглии (/ganglia/gmond_python_modules/gpu/nvidia/).

Нужно ли нам применять ganglia_web.patch патч?

Если я не применяю патч, я не вижу метрик GPU при переходе на http://localhost/ganglia/

Если я пытаюсь применить патч, у меня возникает следующая проблема:

ubuntu@server:/usr/share/ganglia-webfrontend$ sudo patch -p0 < /home/ubuntu/gmond_python_modules/gpu/nvidia/ganglia_web.patch
sudo: unable to resolve host server
patching file host_view.php
Hunk #1 FAILED at 17.
Hunk #2 FAILED at 37.
Hunk #3 FAILED at 144.
Hunk #4 FAILED at 153.
Hunk #5 FAILED at 169.
5 out of 5 hunks FAILED -- saving rejects to file host_view.php.rej
patching file templates/default/host_view.tpl
Hunk #1 FAILED at 80.
Hunk #2 FAILED at 89.
2 out of 2 hunks FAILED -- saving rejects to file templates/default/host_view.tpl.rej
ubuntu@server:/usr/share/ganglia-webfrontend$ cd /usr/share/ganglia-webfrontend 

В файле readme не упоминается, что делать с файлом исправления.

Веб-интерфейс содержит метрику графического процессора, но все изображения 404:

Когда я иду в Grid > [name] > [gpu node] Я не вижу никакой опции графического процессора:

На сервере Ganglia (т. Е. На сервере, где gmetad работает) я побежал:

git clone https://github.com/ganglia/gmond_python_modules.git
sudo cp gmond_python_modules/gpu/nvidia/graph.d/*   /usr/share/ganglia-webfrontend/graph.d/
sudo /etc/init.d/gmetad restart

На клиенте Ganglia (т. Е. На сервере, где gmond и где находится GPU) я запустил:

git clone https://github.com/ganglia/gmond_python_modules.git
sudo pip install nvidia-ml-py
sudo cp gmond_python_modules/gpu/nvidia/python_modules/nvidia.py /usr/lib/ganglia/nvidia.py
sudo cp gmond_python_modules/gpu/nvidia/conf.d/nvidia.pyconf /etc/ganglia/conf.d
sudo /etc/init.d/ganglia-monitor restart

Я использую:

  • Ganglia Web Frontend версия 3.6.1
  • Ganglia Web Backend (gmetad) версия 3.6.0
  • RRDtool версия 1.4.7.
  • Ubuntu 14.04.3 LTS x64 сервер

2 ответа

После столкновения с этим сам, как ни странно, вчера тоже. Я спросил разработчика модуля. Он сказал, что это должно "просто работать"... поэтому, немного поиграв, я нашел следующее:

На веб-хостинге:

  1. cp conf.d / nvidia.pyconf /etc/ganglia/conf.d/
  2. cp graph.d / * /usr/share/ganglia-webfrontend/graph.d/
  3. Перезапустите Gmond

На узле GPU (обратите внимание, это имена и расположения пакетов RHEL/SL/Cent):

  1. Установить pip (python-pip)
  2. Запустите: pip install nvidia-ml-py
  3. Из источника:

    cp conf.d/nvidia.pyconf /etc/ganglia/conf.d/
    cp python_module/nvidia.py /usr/lib64/ganglia/
    
  4. Перезапустите Gmond

Нет необходимости исправлять веб-дерево сейчас. Итак, в веб-интерфейсе перейдите по ссылке:

Grid > [name] > [gpu node]

Там должно быть "метрики GPU" в списке сейчас. Возможно, захочется свернуть и посмотреть. Если по какой-то причине это не так, вы можете перейти на страницу " Сетка"> [Имя] и в нижней части раскрывающегося списка "Метрика" выбрать одну из метрик gpu_*. Это может пнуть что-то, как только вы это сделаете. Я должен был сделать это, чтобы один из узлов отображал раздел "показатели gpu"... но другой я не сделал.

YMMV.

-J

На Ubuntu xenial я обнаружил, что мне нужно добавить modpython.conf рассказать ганглиям modpython.so загрузить nvidia.py модуль:

  1. Установить pip (python-pip)
  2. Бежать: sudo pip install nvidia-ml-py
  3. Из источника:

    cp conf.d/nvidia.pyconf /etc/ganglia/conf.d/
    cp python_module/nvidia.py /usr/lib/ganglia/python_modules/
    
  4. Если у вас нет /etc/ganglia/conf.d/modpython.conf

    cat <<EOF | sudo tee /etc/ganglia/conf.d/modpython.conf
    modules {
      module {
        name = "python_module"
        path = "/usr/lib/ganglia/modpython.so"
        params = "/usr/lib/ganglia/python_modules/"
      }
    }
    include ('/etc/ganglia/conf.d/*.pyconf')
    EOF
    
Другие вопросы по тегам