Исправление неисправных сетевых драйверов при установке DC S2D 2019 года.
Я помогаю устранять неполадки существующего отказоустойчивого кластера Windows в центре обработки данных Windows Server 2019. Кластер настроен на использование Storage Spaces Direct ( http://aka.ms/s2d), но возникают проблемы с развертыванием, в частности, несовпадение версий сетевых драйверов на портах сетевых карт, используемых S2D. Чтобы помочь кластеру восстановиться, я отключу его и перейду к одной и той же версии драйверов для всех сетевых портов на всех узлах. В настоящее время планируется запустить установку драйвера сетевого адаптера после отключения кластера, а затем одновременно перезагрузить все узлы и подключить кластер к сети.
Вот в чем загвоздка: по-видимому, НЕТ официальной документации о том, как сделать это безопасно, кроме обновления/обновления программного обеспечения драйвера на месте. Удаление записей об устройствах с последующей переустановкой нового программного обеспечения драйвера выглядит «немного тяжеловесным», поскольку оно также повлечет за собой полный сброс сетевого стека с помощью (несколько неясных) команд PowerShell.
Вопрос (в трёх частях):
Существует ли известная передовая практика обновления драйверов сетевых карт в отказоустойчивом кластере с S2D (не путать с драйверами HDD, SDD или NVMe), которая гарантировала бы чистое обновление драйверов, не нарушая работу кластера?
Достаточно ли моего метода «на месте» и будет ли он работать по назначению?
Или этот кластер просто закончился и, вероятно, нуждается в разрушении и восстановлении?
2 ответа
Спустя много месяцев я получил ответ. В частности, чтобы ответить на каждую часть моего вопроса:
- На данный момент действительно не существует известного метода или документа, на который можно было бы указать (который я смог найти).
- Метод на месте возможен, но имеет оговорки.
- Вам не нужно уничтожать кластер, хотя при невнимательности вы легко можете это сделать.
Вам понадобится административный доступ к PowerShell, и чтобы сделать это, вам придется испачкать обе руки до запястий. Это опасная процедура. Вы рискуете повредить или даже уничтожить свой кластер, если сделаете это неправильно. Я не могу рассказать о каждой установке, могу только описать, как я решил проблему. Если вы не уверены в выполнении описанных ниже действий, у вас нет драйверов или есть какая-либо другая причина, которая может вызвать проблему, не продолжайте. Если что-то сломается, вы сохраните обе части, и я не виноват. Вы должным образом предупреждены об опасности потери данных.
В моей конкретной установке проблема заключалась в конкретном драйвере для самих сетевых карт. После долгих исследований, в том числе глубокого и показательного чтения ошибок поставщиков драйверов сетевых карт, я смог определить правильный уровень версии для использования. После удаления всех версий сетевых драйверов и/или возврата к конкретной необходимой версии сетевые карты вели себя нормально, и после завершения процесса исправления они с тех пор оставались в хорошем состоянии. К сожалению, это требует отключения узлов по одному, но если вы терпеливы, это выполнимо.
- Перед началом убедитесь, что у вас есть все необходимые драйверы. Скопируйте драйвер(ы) на целевой узел, чтобы он был доступен локально. Ваши данные в кластере (и, в частности, общие тома кластера) были зарезервированы, клонированы или перемещены в безопасное место. Вы признаете, что ухудшите качество всех используемых общих томов кластера, а также любых гиперконвергентных виртуальных машин. Вы готовы и можете удалить узел из кластера, если что-то пойдет не так. Это все серьезные предпосылки, и вы должны убедиться, что можете выполнить любое из них по своему усмотрению. Не продолжайте, пока не рассмотрите все это как минимум.
- для данного узла, которому требуются обновления драйверов сетевой карты, удалите все активные роли и приготовьтесь приостановить его, как если бы вы начали цикл обслуживания или исправлений.
- после завершения слива/паузы приступайте к отключению всех переключателей Hyper-V, которые «обертывают» NICS (если у вас есть такая общая схема). В некоторых развертываниях эта схема используется, чтобы попытаться «объединить» или «связать» сетевые карты в единый интерфейс. Обратите внимание, что в некоторых кластерах этого не будет. Если это так, перейдите к следующему шагу.
- перейдите к отключению физических сетевых карт в Windows, подключенных к коммутатору частной структуры. На этом этапе трафик от кластера к узлу не должен проходить.
- Откат драйверов может привести к удалению настроек DCB и/или QoS для вашего сетевого адаптера, в зависимости от процесса установки поставщика. Хотя это маловероятно, все же существует вероятность того, что следующим шагом будет пересечение точки невозврата для узла, если это так. Будьте уверены, что вы готовы к тому, что узел не сможет повторно присоединиться к кластеру из-за этой активности.
- перейдите к удалению и/или откату драйверов на сетевых картах, назначенных частному коммутатору структуры. Ничего страшного, если по умолчанию используются стандартные драйверы, загруженные с сайта Microsoft, поскольку вы можете заменить их драйверами, которые вы установили ранее на локальный загрузочный диск.
- Если стандартные драйверы сетевого адаптера от Microsoft не являются той версией, которая вам нужна, или если драйверы доступны только у поставщика, перейдите к установке драйверов для сетевого адаптера. В зависимости от программного драйвера и ваших обстоятельств вам может потребоваться перезагрузить узел — надеемся, что нет, но будьте готовы, если это произойдет.
- Проверьте уровень версии драйвера для каждого сетевого адаптера, подключенного к коммутатору частной структуры. Они должны быть той версии, которая вам нужна. В противном случае примите все необходимые меры для установки правильных драйверов.
- Убедитесь, что на хосте присутствуют все правильные настройки, в частности, что функция моста центра обработки данных включена для Windows, что на всех портах NIC частной структуры включен RDMA, что прием DCBX для тех же портов NIC отключен (это правильно , это не опечатка, это
Set-NetQoSDcbxSetting -Willing
параметр), что у вас нет конфликтующих политик QoSPolitic для того, что вам нужно, что у вас есть политика QoS «Кластер», политика «SMB» и политика «SMB Direct», что вы создаете классы трафика ETS для «Кластера» и «SMB Direct» (обратите внимание, что «SMB» будет охватываться «SMB Direct» при использовании порта 445) и что вы назначаете управление потоком NetQoS для кластера (7) и SMB (3) соответственно. - После подтверждения всех настроек сетевого адаптера хоста включите QoS для каждого сетевого адаптера с помощью
Enable-NetAdapterQos
Командлет PowerShell. - Повторно включите физические порты сетевой карты, чтобы восстановить доступ к частному коммутатору структуры.
- При использовании переключателей оболочки Hyper-V повторно включите соответствующие «сетевые карты» Hyper-V.
- Откройте монитор производительности (старый, скрипучий, о котором все забывают), и разместите на экране несколько строк для RDMA-трафика. После повторного включения сетевых адаптеров вы должны начать видеть поток поступающих согласованных данных, поскольку кластер продолжает бесшумно пересылать S2D-трафик, даже если узел находится в состоянии паузы. Также откройте средство просмотра событий и просмотрите все журналы кластеризации, которые сможете найти, в поисках свидетельств обмена данными с другими узлами.
- Если вы удовлетворены работоспособностью узла, приступайте к возобновлению его работы. Вам не обязательно возвращать роли на исходный узел, но это полностью зависит от вас и ваших обстоятельств.
- Как только общие тома кластера станут более или менее стабильными, вы можете повторить этот процесс для каждого узла, который в этом нуждается. Прежде чем пытаться выполнить это на другом узле, убедитесь, что ваши CSV-файлы исправны и стабильны. Не торопите процесс.
- Как только все узлы стабилизируются, убедитесь, что весь кластер возвращен в эксплуатацию.
В маловероятном сценарии, когда сетевые карты с разными версиями прошивки не работают вместе, ваши действия имеют смысл. Но обычно вам следует изучить возможность обновления с поддержкой кластера CAU. DELL/HP и Lenovo интегрировали CAU в свои рабочие процессы.