Может кто-нибудь сказать мне, почему мой сервер Ubuntu вышел из строя?

Мой Ubuntu Server версии 11.10 отключился посреди ночи несколько дней назад без какой-либо причины. Теперь я хочу знать, в чем проблема.

Вот часть системного журнала, которую я не могу понять ни одним словом. Может кто-нибудь помочь мне указать на проблему?

Сервер не работал между 23:17:01 и 07:41:43, пока мы не перезапустили его аппаратное обеспечение.

Jul 15 22:55:02 my-webserver CRON[4879]: (CRON) info (No MTA installed, discarding output)
Jul 15 23:00:01 my-webserver CRON[5576]: (munin) CMD (/usr/bin/munin-cron)
Jul 15 23:00:01 my-webserver CRON[5578]: (root) CMD (if [ -x /etc/munin/plugins/apt_all ]; then /etc/munin/plugins/apt_all update 7200 12 >/dev/null; elif [ -x /etc/munin/plugins/apt ]; then /etc/munin/plugins/apt update 7200 12 >/dev/null; fi)
Jul 15 23:00:01 my-webserver CRON[5577]: (munin) CMD (if [ -x /usr/bin/munin-cron ]; then /usr/bin/munin-cron; fi)
Jul 15 23:00:02 my-webserver CRON[5575]: (CRON) error (grandchild #5576 failed with exit status 1)
Jul 15 23:00:02 my-webserver CRON[5575]: (CRON) info (No MTA installed, discarding output)
Jul 15 23:05:01 my-webserver CRON[6229]: (munin) CMD (if [ -x /usr/bin/munin-cron ]; then /usr/bin/munin-cron; fi)
Jul 15 23:05:01 my-webserver CRON[6230]: (munin) CMD (/usr/bin/munin-cron)
Jul 15 23:05:01 my-webserver CRON[6231]: (root) CMD (if [ -x /etc/munin/plugins/apt_all ]; then /etc/munin/plugins/apt_all update 7200 12 >/dev/null; elif [ -x /etc/munin/plugins/apt ]; then /etc/munin/plugins/apt update 7200 12 >/dev/null; fi)
Jul 15 23:05:01 my-webserver CRON[6226]: (CRON) error (grandchild #6229 failed with exit status 1)
Jul 15 23:05:01 my-webserver CRON[6226]: (CRON) info (No MTA installed, discarding output)
Jul 15 23:09:01 my-webserver CRON[6838]: (root) CMD (  [ -x /usr/lib/php5/maxlifetime ] && [ -d /var/lib/php5 ] && find /var/lib/php5/ -depth -mindepth 1 -maxdepth 1 -type f -cmin +$(/usr/lib/php5/maxlifetime) ! -execdir fuser -s {} 2>/dev/null \; -delete)
Jul 15 23:10:01 my-webserver CRON[8404]: (munin) CMD (if [ -x /usr/bin/munin-cron ]; then /usr/bin/munin-cron; fi)
Jul 15 23:10:01 my-webserver CRON[8405]: (root) CMD (if [ -x /etc/munin/plugins/apt_all ]; then /etc/munin/plugins/apt_all update 7200 12 >/dev/null; elif [ -x /etc/munin/plugins/apt ]; then /etc/munin/plugins/apt update 7200 12 >/dev/null; fi)
Jul 15 23:10:01 my-webserver CRON[8407]: (munin) CMD (/usr/bin/munin-cron)
Jul 15 23:10:01 my-webserver CRON[8401]: (CRON) error (grandchild #8404 failed with exit status 1)
Jul 15 23:10:01 my-webserver CRON[8401]: (CRON) info (No MTA installed, discarding output)
Jul 15 23:15:01 my-webserver CRON[9036]: (munin) CMD (if [ -x /usr/bin/munin-cron ]; then /usr/bin/munin-cron; fi)
Jul 15 23:15:01 my-webserver CRON[9035]: (munin) CMD (/usr/bin/munin-cron)
Jul 15 23:15:01 my-webserver CRON[9041]: (root) CMD (if [ -x /etc/munin/plugins/apt_all ]; then /etc/munin/plugins/apt_all update 7200 12 >/dev/null; elif [ -x /etc/munin/plugins/apt ]; then /etc/munin/plugins/apt update 7200 12 >/dev/null; fi)
Jul 15 23:15:01 my-webserver CRON[9034]: (CRON) error (grandchild #9035 failed with exit status 1)
Jul 15 23:15:01 my-webserver CRON[9034]: (CRON) info (No MTA installed, discarding output)
Jul 15 23:17:01 my-webserver CRON[9544]: (root) CMD (   cd / && run-parts --report /etc/cron.hourly)
Jul 16 07:41:43 my-webserver kernel: imklog 5.8.1, log source = /proc/kmsg started.
Jul 16 07:41:43 my-webserver rsyslogd: [origin software="rsyslogd" swVersion="5.8.1" x-pid="783" x-info="http://www.rsyslog.com"] start
Jul 16 07:41:43 my-webserver rsyslogd: rsyslogd's groupid changed to 103
Jul 16 07:41:43 my-webserver rsyslogd: rsyslogd's userid changed to 101
Jul 16 07:41:43 my-webserver rsyslogd-2039: Could no open output pipe '/dev/xconsole' [try http://www.rsyslog.com/e/2039 ]
Jul 16 07:41:43 my-webserver kernel: [    0.000000] Initializing cgroup subsys cpuset
Jul 16 07:41:43 my-webserver kernel: [    0.000000] Initializing cgroup subsys cpu
Jul 16 07:41:43 my-webserver kernel: [    0.000000] Linux version 3.0.0-12-server (buildd@crested) (gcc version 4.6.1 (Ubuntu/Linaro 4.6.1-9ubuntu3) ) #20-Ubuntu SMP Fri Oct 7 16:36:30 UTC 2011 (Ubuntu 3.0.0-12.20-server 3.0.4)

3 ответа

Решение

Но я могу сказать тебе, что ты должен сделать сейчас.

  1. Настройте мониторинг. Получить Nagios или Zabbix или что-то подобное. Если у вас есть только один сервер, установите его там, но имейте в виду, что он не сможет предупредить вас, если весь сервер выйдет из строя, только если некоторые службы выйдут из строя.
  2. Настройте больше мониторинга. Получите сторонний сторонний сервис, такой как Pingdom или HostTracker. Эти виды услуг часто имеют бесплатные или очень дешевые варианты, если это проблема.
  3. Настройте удаленный доступ. Что-то вроде KVM или последовательной консоли.
  4. Настройте мониторинг производительности. Это покрыто программным обеспечением, таким как Zabbix (снова), Munin или Cacti. (Технически Nagios может сделать это, но мне не нравится это для этой функциональности.) То, что вы получаете из этого, это графики, показывающие, что делал ваш сервер и на чем он заканчивал, прежде чем он перестал отвечать.

По крайней мере, при наличии мониторинга и оповещения время простоя будет сокращено до минут, а не часов. С помощью удаленного доступа и графиков вы можете просто получить достаточно данных, чтобы выяснить, что произошло.

Я вижу две возможности:

  1. Около 23:17 в вашем районе произошел сбой питания, а в 07:41 было восстановлено питание.

  2. Кто-то, кто в вашей компании на ночь, решил отключить компьютер.

Там нет ничего в этом журнале, чтобы указать, почему он перезагрузился. 15 июля 23:17:01 он работал, 16 июля 07:41:43 был перезапущен.

Вам нужно будет просмотреть журналы использования ресурсов, журналы приложений, журналы сети и т. Д. И т. Д.

Другие вопросы по тегам