Диагностика ошибок сети
Отказ от ответственности: я разработчик, а не системный администратор, пожалуйста, будьте осторожны.
Там, где я работаю, у нас много периодических проблем с сетью. Иногда происходит сбой DNS, но доступ к серверам может быть сделан через IP, иногда доступ через IP не удается. Насколько мы можем судить, ничего не изменилось на серверах, брандмауэрах, управляемых коммутаторах и т. Д. Кроме того, к сожалению, ошибки не вызывают проблем со всеми пользователями все время, но, насколько мы можем судить, все пользователи имеют были проблемы в какой-то момент.
- Серверы не сообщают о каких-либо неисправностях.
- Физическая сеть выглядит нормально (это небольшой сайт).
- Брандмауэры не сообщают ничего необычного.
- Управляемые коммутаторы имеют пароли, которые хранятся только в голове администратора системы (проблема, которую мы знаем!)
Наш внутренний системный администратор в данный момент недоступен, поэтому разработчикам оставалось попробовать что-то выяснить.
Итак, учитывая, что я почти не имею понятия, с чего мне начать?
Обновить
Я попробовал комбинацию tracrt/ping, и похоже, что это внутренняя проблема. Внешние вещи кажутся довольно последовательными, но внутренние биты оказываются ненадежными.
4 ответа
Трассировка на сайт, который вы знаете, будет. например, google.com. Затем запустите постоянный пинг против 3 целей, вашего маршрутизатора, шлюза по умолчанию для вашего маршрутизатора и google.com.
Это должно, по крайней мере, сказать вам, если вы теряете какие-либо пакеты по пути, или это проблема вашего интернета или внутренней сети.
После этого поста вернитесь, если / когда у вас будет следующий ответ.
Похоже, что-то разрывает соединения где-то.
Лучший совет, хотя бы отследить вашего сисадмина, поэтому он / она там...
Похоже, у вас либо плохой интерфейс на коммутаторе / сервере, либо мошеннический источник трафика в сети. Без возможности захвата некоторого связанного трафика или просмотра статистики интерфейса, фактически невозможно было бы отследить ни одного из них. Вы добавили новые устройства в последнее время? Особенно в моем личном порядке подозрительные устройства: сетевые устройства, серверы, подключенные к более чем одной сети, принтеры.
Однако одинокий системный администратор, ушедший в отпуск и оставивший магазин без доступа к сети, - очень плохая ситуация. Некоторые вещи, чтобы обсудить, когда он / она возвращается:
- мониторинг - существует множество бесплатных решений по мониторингу OSS для всего: от статистики по каждому порту (Cacti) до углубленного мониторинга услуг (Nagios). Похоже, вам нужны оба.
- документация - если у вас есть только один человек, квалифицированный для администрирования сети, то этот человек должен документ, документ, документ! Кроме того, он должен быть в среде, которая легко доступна, даже если сеть не работает! Это включает в себя надежное хранение паролей, даже если они хранятся в сейфе на бумажном носителе, так что компания не пострадает, даже если системный администратор столкнется с черной шиной.
- уведомление - после того, как вы внедрили достойное решение для мониторинга, вы должны выбрать план эскалации, чтобы не отправлять уведомления только одному человеку.
Я был единственным сетевым администратором компании с многомиллионным оборотом более 7 лет (у меня теперь есть миньоны =) и по вызову 24/7/365 почти все это время, и могу сказать, совершенно определенно, что если вы ' Если вы сделали себя единственным человеком, который может сделать что-то определенное, вы можете быть уверены, что вас будут вызывать всякий раз, когда это нужно сделать.
Единственное, на что вы можете положиться на 100%, - это вероятность того, что все, что может сломаться, когда вы единственный, кто может это исправить, - это то, что абсолютно гарантированно сломается, когда вы уйдете в отпуск.
Без доступа к вашим коммутаторам ваши возможности немного ограничены в поиске сетевых проблем. Я бы начал с проверки интерфейсов на серверах; искать потерянные пакеты или коллизии. Вы также можете использовать Wireshark или tcpdump, чтобы посмотреть на реальный трафик и увидеть, что происходит, когда ваши DNS-серверы не разговаривают, но все это более эффективно достигается, когда вы можете отслеживать вещи со стороны сети, а не со стороны сервера. Если вам действительно нужно, вы можете сбросить пароли на коммутаторах, но будьте готовы справиться с гневом вашего администратора, когда он вернется...
Выделите проблему:
Лучшее, что вы можете, это попытаться изолировать проблему, я думаю. Если у вас несколько коммутаторов, возникают ли проблемы с машинами, подключенными только к одному из коммутаторов? Если это происходит со всеми коммутаторами и не является чисто проблемой DNS, я бы посмотрел на маршрутизатор или соединение между коммутаторами и маршрутизатором. Возможно, это может быть какая-то проблема, подобная широковещательному шторму, но я думаю, что это менее вероятно, и вы, вероятно, не собираетесь это исправить, если это так. Как уже упоминалось, tcpdump/wireshark и ошибки интерфейса могут также помочь в этом процессе.
Power Cycle Everything (Рискованный):
Второй рискованный вариант заключается в том, чтобы просто выключать и включать все элементы питания или что-то одно за раз, чтобы посмотреть, решит ли это проблему. Я говорю, что это рискованно, потому что с большим количеством сетевого оборудования есть работающая конфигурация и сохраненная конфигурация. Если администратор забыл передать запущенную конфигурацию в конфигурацию запуска в прошлый раз, когда они что-то сделали, у вас, вероятно, будут проблемы после перезагрузки.