Прерывистое подключение к хосту и виртуальной машине в автономном режиме ESXi

У меня есть автономный ESXi 5.5.0 b2143827. Он работает на Dell R710 с 144 ГБ оперативной памяти. На нем примерно 20 виртуальных машин.

Прямо сейчас я не могу попасть на консоль через клиент VMWare vSphere или SSH. Это просто действует так, как будто сервер не существует. Хост вернется в случайное время, и я смогу войти на хост через SSH и клиент vSphere, но затем он снова выйдет из сети в неопределенное время в будущем. Я могу получить к нему доступ через аварийную консоль на самом физическом хосте (Alt+F1).

Тем не менее, все виртуальные машины активны и работают. Но примерно 10 раз в день все виртуальные машины будут отключаться от сети на период от 15 секунд до 5 минут. Тогда они вернутся очень хорошо, и все продолжает тикать.

Я сделал следующее:

  • Это было в предыдущей сборке, я обновил его до b2143827. Это не имеет значения
  • /sbin/services.sh restart - это не поможет ситуации
  • Перезапустил физический хост. Это не имеет значения.
  • С физической консоли (Alt+F1) Я пропинговал другое физическое устройство в сети. Это не отбрасывает никаких пакетов вообще.
  • С физической консоли я проверил виртуальную машину на хосте. Это терпит примерно 80% потерь
  • С удаленной машины я могу пропинговать IP-адрес управления с потерей пакета 0%
  • С удаленного компьютера я могу пропинговать виртуальную машину на хосте и видеть, как хост периодически отключается и снова подключается к сети
  • я смотрел tail -f /var/log/hostd.log какое-то время и не видел ничего плохого там происходящего
  • Система установлена ​​на SD-карту. Я выключил сервер, DDперевел карту на другую карту, затем загрузил ее на новую карту. Та же проблема.
  • Пробовал другой сетевой коммутатор
  • Запустил менеджер обновлений Dell и обновил каждую прошивку до последней версии.

Я в недоумении, куда идти отсюда. Этот сервер работал безупречно в течение последних 2,5 лет. Ранее VMWare устанавливался на физический диск, но 6 месяцев назад он был перенесен на SD-карту, чтобы мы могли перенастроить физические диски.

2 ответа

Решение

После 3 дней безостановочного устранения неполадок, я в конечном итоге обнаружил, что проблема заключается в том... что подождите... наш Cisco ASA терзает себя и наводняет сеть фиктивным трафиком.

Поскольку у нас была довольно простая коммутация, а серверная среда виртуализирована на 100%, мы ничего не заметили внутри сетевого стека.

Самая большая красная сельдь, которую я здесь потерпела, пинговала гостевую ОС с ее хоста. Я бы подумал, что это было абсолютно автономно против физических сетевых карт, но, видимо, нет.

В конце концов, я обнаружил проблему, отразив порт управления на коммутаторе и наблюдая за трафиком в / из него с помощью Wireshark, и наблюдая за тем, как трафик покидает исходный порт, но никогда не достигает пункта назначения. Поскольку я не мог видеть его внутри самой сети, мне потребовалось всего 4 часа, чтобы выделить ASA в качестве источника проблемы.

После удаления ASA из сети все прошло гладко.


Оказывается, ASA не взломал себя, кто-то создал искаженное правило NAT, которое не имело no-proxy-arpтак что он начал отвечать на запросы ARP по всему внутреннему /24. Отменив это правило и предложив фирме загрузить задницу тому, кто его добавил, у нас теперь есть что, почему и кто.

Это также объясняет, почему сеть только на хосте не работает должным образом. ASA отвечал на запрос ARP, поэтому хост не знал, сделать ли это запросом сети только для хоста.

Я бы посоветовал обновить прошивку сетевых адаптеров Broadcom на вашем сервере Dell PowerEdge. Тот факт, что вы сталкиваетесь с проблемой внешнего подключения в дополнение к узлам проверки связи, характерным для ВМ, указывает на проблему с сетевой картой.

  • Можете ли вы попробовать другое устройство NIC? (уэтого хозяина четыре)
  • Сколько ссылок у вас есть от Standard vSwitch? (увас должно быть несколько живых ссылок)
  • Насколько воспроизводима проблема?

Что касается загрузки SDHC, я действительно рекомендую использовать загрузку SD/USB только на серверах ESXi, которые являются членами кластера vSphere и имеют общее хранилище. Из-за режима сбоя этих карт в ESXi нет никакого преимущества в использовании их для загрузки автономных систем. Ознакомьтесь с различиями между устанавливаемым и встроенным режимами ESXi.

Другие вопросы по тегам