Прерывистое подключение к хосту и виртуальной машине в автономном режиме ESXi
У меня есть автономный ESXi 5.5.0 b2143827. Он работает на Dell R710 с 144 ГБ оперативной памяти. На нем примерно 20 виртуальных машин.
Прямо сейчас я не могу попасть на консоль через клиент VMWare vSphere или SSH. Это просто действует так, как будто сервер не существует. Хост вернется в случайное время, и я смогу войти на хост через SSH и клиент vSphere, но затем он снова выйдет из сети в неопределенное время в будущем. Я могу получить к нему доступ через аварийную консоль на самом физическом хосте (Alt+F1
).
Тем не менее, все виртуальные машины активны и работают. Но примерно 10 раз в день все виртуальные машины будут отключаться от сети на период от 15 секунд до 5 минут. Тогда они вернутся очень хорошо, и все продолжает тикать.
Я сделал следующее:
- Это было в предыдущей сборке, я обновил его до b2143827. Это не имеет значения
/sbin/services.sh restart
- это не поможет ситуации- Перезапустил физический хост. Это не имеет значения.
- С физической консоли (
Alt+F1
) Я пропинговал другое физическое устройство в сети. Это не отбрасывает никаких пакетов вообще. - С физической консоли я проверил виртуальную машину на хосте. Это терпит примерно 80% потерь
- С удаленной машины я могу пропинговать IP-адрес управления с потерей пакета 0%
- С удаленного компьютера я могу пропинговать виртуальную машину на хосте и видеть, как хост периодически отключается и снова подключается к сети
- я смотрел
tail -f /var/log/hostd.log
какое-то время и не видел ничего плохого там происходящего - Система установлена на SD-карту. Я выключил сервер,
DD
перевел карту на другую карту, затем загрузил ее на новую карту. Та же проблема. - Пробовал другой сетевой коммутатор
- Запустил менеджер обновлений Dell и обновил каждую прошивку до последней версии.
Я в недоумении, куда идти отсюда. Этот сервер работал безупречно в течение последних 2,5 лет. Ранее VMWare устанавливался на физический диск, но 6 месяцев назад он был перенесен на SD-карту, чтобы мы могли перенастроить физические диски.
2 ответа
После 3 дней безостановочного устранения неполадок, я в конечном итоге обнаружил, что проблема заключается в том... что подождите... наш Cisco ASA терзает себя и наводняет сеть фиктивным трафиком.
Поскольку у нас была довольно простая коммутация, а серверная среда виртуализирована на 100%, мы ничего не заметили внутри сетевого стека.
Самая большая красная сельдь, которую я здесь потерпела, пинговала гостевую ОС с ее хоста. Я бы подумал, что это было абсолютно автономно против физических сетевых карт, но, видимо, нет.
В конце концов, я обнаружил проблему, отразив порт управления на коммутаторе и наблюдая за трафиком в / из него с помощью Wireshark, и наблюдая за тем, как трафик покидает исходный порт, но никогда не достигает пункта назначения. Поскольку я не мог видеть его внутри самой сети, мне потребовалось всего 4 часа, чтобы выделить ASA в качестве источника проблемы.
После удаления ASA из сети все прошло гладко.
Оказывается, ASA не взломал себя, кто-то создал искаженное правило NAT, которое не имело no-proxy-arp
так что он начал отвечать на запросы ARP по всему внутреннему /24. Отменив это правило и предложив фирме загрузить задницу тому, кто его добавил, у нас теперь есть что, почему и кто.
Это также объясняет, почему сеть только на хосте не работает должным образом. ASA отвечал на запрос ARP, поэтому хост не знал, сделать ли это запросом сети только для хоста.
Я бы посоветовал обновить прошивку сетевых адаптеров Broadcom на вашем сервере Dell PowerEdge. Тот факт, что вы сталкиваетесь с проблемой внешнего подключения в дополнение к узлам проверки связи, характерным для ВМ, указывает на проблему с сетевой картой.
- Можете ли вы попробовать другое устройство NIC? (уэтого хозяина четыре)
- Сколько ссылок у вас есть от Standard vSwitch? (увас должно быть несколько живых ссылок)
- Насколько воспроизводима проблема?
Что касается загрузки SDHC, я действительно рекомендую использовать загрузку SD/USB только на серверах ESXi, которые являются членами кластера vSphere и имеют общее хранилище. Из-за режима сбоя этих карт в ESXi нет никакого преимущества в использовании их для загрузки автономных систем. Ознакомьтесь с различиями между устанавливаемым и встроенным режимами ESXi.