Нестабильные медные каналы 10 Гбит, платы Broadcom и Intel к коммутаторам Cisco 4900M
Мы купили несколько серверов Dell PowerEdge R730 с картами PCI Express QLogic/Broadcom BCM57810 и подключили их к коммутаторам Cisco 4900M - каналы 10 Гбит не работают надежно. Иногда они не подключаются, иногда подключаются через несколько минут, а когда они подключаются, они сбрасывают несколько раз в день. Разъединения могут длиться 4 минуты или 2 часа.
Коммутаторы Cisco имеют медные соединения 10 Гбит с сетями SAN Dell PowerVault, которые стабильны и работают в течение многих месяцев.
Я вижу разрывы в журналах VMware как сообщения типа:
bnx2x 0000:82:00.1: vmnic5: NIC Link is Down
а также
network connectivity on virtual switch "vSwitch2". Physical NIC vmnic5 is down.
Я не вижу никаких полезных кодов ошибок или предыдущих сообщений, только сообщения, вызванные удалением ссылки. В Windows он отображается как отключенная карта, а на коммутаторе - как отключенный порт коммутатора.
Когда ссылки соединяются, они работают - ping ping фрейма jumbo, сеансы iSCSI устанавливаются, хранилища данных появляются со всеми найденными путями. Но связи периодически.
Мы проверили:
- Кабели:
- Первоначально один кабель Cat5e, теперь структурированный кабель Cat6. Общая длина кабеля составляет <7м.
- Подключен с новым кабелем, хост для коммутатора без патчей / соединений и других кабелей поблизости.
- Драйверы / ОС:
- Первоначально VMware ESXi 5.5 U2 Dell build ("ESXi 5.5.0, 2068190") с драйвером bnx2x версии 2.710.39.v55.2
- Затем обновленный драйвер от vmware.com, bnx2x версия 2.710.70.v50.7
- Затем ESXi 6.0, сборка Dell ("ESXi 6.0.0 2494585") с версией bnx2x 2.712...
- Затем Windows Server 2012 R2 с последней версией драйвера с сайта Dell.
- Прошивка сетевой карты QLogic / Broadcom; это последняя версия от Dell, FFv7.12.17.
- Конфигурация порта коммутатора, это просто
mtu 9000
а такжеswitchport access vlan NNN
- Порты коммутатора
- Это 8-портовые 10-гигабайтные модули RJ45 ( WS-X4908-10G-RJ45), по одному на коммутатор. Сети SAN занимают первые четыре порта в каждом модуле, новые серверы занимают остальные четыре порта в каждом модуле. Это влияет на все порты, которые мы используем для новых серверов. Так что это не один неисправный порт или один неисправный модуль.
- Я не пытался разорвать соединения SAN для тестирования этих портов, без какой-либо конкретной причины думать, что порты 1-4 более надежны, чем 5-8, что будет последним средством.
- Счетчик интерфейса коммутатора, без ошибок, кроме разъединений.
- Отключение различных возможностей разгрузки в драйвере Windows QLogic/Broadcom и включение EnergyEfficientEthernet, заставляющее карты использовать 10 ГБ вместо автоматического определения.
- Подключая одни и те же хосты к одним и тем же коммутаторам в порты 1 Гбит, что, кажется, работает нормально, они многократно подключаются очень быстро
- Кросс-соединение двух хостов, они быстро соединяются со скоростью 10 Гб и поддерживают стабильное соединение в течение нескольких дней.
- Мы купили карту Intel X540-t2 и попробовали это. Он ведет себя так же.
- С тех пор мы купили соединительные кабели Cat 6a и протестировали их, без изменений.
Мы позвонили в службу поддержки Dell, они не нашли ничего плохого и предположили, что коммутаторы виноваты, но поскольку коммутаторы работают по медным соединениям 10 Гбит с Dell PowerVault Storage, и, насколько я могу судить из наших журналов мониторинга коммутаторов и SAN Журналы событий, эти ссылки не сбрасываются, я не хочу думать, что проблема в коммутаторах Cisco.
Они работают под управлением IOS 15.1(1)SG2, который не является последним, но коммутаторы работают и работают стабильно, я не хочу случайно менять прошивку "на всякий случай".
Это происходит между несколькими серверами, несколькими сетевыми картами, сетевыми картами разных марок, несколькими версиями драйверов, несколькими коммутаторами. Это не может быть ни одна неисправная часть оборудования. Это все в кондиционированной стойке с кондиционером.
Это первый раз, когда мы пробовали хост VMware переключать соединения на 10 Гб, поэтому у нас нет другой конфигурации, с которой мы можем сравнивать, или оборудования, к которому мы можем подключиться.
Что еще мы можем проверить?
-Изменить: мы пытались обновить микропрограмму коммутатора, но я только что нашел связанную ссылку - это, кажется, известная проблема между модулем Cisco WS-X4908-10G-RJ45 и платами Broadcom BCM57810, зависящими от версии IOS - https://supportforums.cisco.com/discussion/11755141/4900m-ws-x4908-10g-rj45-port-startup-delay который имеет много актуальных обсуждений и приводит к:
https://tools.cisco.com/bugsearch/bug/CSCug68370
WS-X4908-10G-RJ45 и Broadcom 57810S 10Gb BASE-T совместимость проблемы
CSCug68370
Описание
Симптом: порты BaseT 10 Гбит / с (на WS-X4908-10G-RJ45) подключены к серверам Dell 820 с помощью Broadcom 57810S DP 10 Гбит BASE-T. При перезагрузке коммутатора или удалении / повторной установке кабельные порты начинают работать через долгое время (до 1 часа) или вообще не подходят. Условия: 1) Модуль WS-X4908-10G-RJ45 2) Версии с 15,0(2)SG до 15,0(2)SG7, 15,1(2)SG до 15,1(2)SG3 Обходной путь: Понижение до 12,2(54)SG
Это не совсем та же модель сервера, и в ней не упоминаются карты Intel, но проблема довольно точная.
2 ответа
Похоже, что это ошибка Cisco https://tools.cisco.com/bugsearch/bug/CSCug68370 и обновление до одной из "известных исправленных" версий IOS (15.1(2) SG4), похоже, исправило ее.
Пожалуйста, обновите ваши хосты ESXi. Это одна вещь, которую вы действительно пропустили на этапах устранения неполадок.
Вашей версии 5.5 почти 1 год!
На момент написания этой статьи текущей версией ESXi 5.5 является 2718055. Текущий номер сборки ESXi 6.0 - 2809209.
Dell, HP, не имеет значения... вы все равно должны обновить свои установки ESXi. Многие люди упускают это из виду, и это вторая по частоте причина непреднамеренных простоев в средах, которые я вижу.