Исправление неисправных сетевых драйверов при установке DC S2D 2019 года.

Я помогаю устранять неполадки существующего отказоустойчивого кластера Windows в центре обработки данных Windows Server 2019. Кластер настроен на использование Storage Spaces Direct ( http://aka.ms/s2d), но возникают проблемы с развертыванием, в частности, несовпадение версий сетевых драйверов на портах сетевых карт, используемых S2D. Чтобы помочь кластеру восстановиться, я отключу его и перейду к одной и той же версии драйверов для всех сетевых портов на всех узлах. В настоящее время планируется запустить установку драйвера сетевого адаптера после отключения кластера, а затем одновременно перезагрузить все узлы и подключить кластер к сети.

Вот в чем загвоздка: по-видимому, НЕТ официальной документации о том, как сделать это безопасно, кроме обновления/обновления программного обеспечения драйвера на месте. Удаление записей об устройствах с последующей переустановкой нового программного обеспечения драйвера выглядит «немного тяжеловесным», поскольку оно также повлечет за собой полный сброс сетевого стека с помощью (несколько неясных) команд PowerShell.

Вопрос (в трёх частях):

Существует ли известная передовая практика обновления драйверов сетевых карт в отказоустойчивом кластере с S2D (не путать с драйверами HDD, SDD или NVMe), которая гарантировала бы чистое обновление драйверов, не нарушая работу кластера?

Достаточно ли моего метода «на месте» и будет ли он работать по назначению?

Или этот кластер просто закончился и, вероятно, нуждается в разрушении и восстановлении?

2 ответа

Спустя много месяцев я получил ответ. В частности, чтобы ответить на каждую часть моего вопроса:

  1. На данный момент действительно не существует известного метода или документа, на который можно было бы указать (который я смог найти).
  2. Метод на месте возможен, но имеет оговорки.
  3. Вам не нужно уничтожать кластер, хотя при невнимательности вы легко можете это сделать.

Вам понадобится административный доступ к PowerShell, и чтобы сделать это, вам придется испачкать обе руки до запястий. Это опасная процедура. Вы рискуете повредить или даже уничтожить свой кластер, если сделаете это неправильно. Я не могу рассказать о каждой установке, могу только описать, как я решил проблему. Если вы не уверены в выполнении описанных ниже действий, у вас нет драйверов или есть какая-либо другая причина, которая может вызвать проблему, не продолжайте. Если что-то сломается, вы сохраните обе части, и я не виноват. Вы должным образом предупреждены об опасности потери данных.

В моей конкретной установке проблема заключалась в конкретном драйвере для самих сетевых карт. После долгих исследований, в том числе глубокого и показательного чтения ошибок поставщиков драйверов сетевых карт, я смог определить правильный уровень версии для использования. После удаления всех версий сетевых драйверов и/или возврата к конкретной необходимой версии сетевые карты вели себя нормально, и после завершения процесса исправления они с тех пор оставались в хорошем состоянии. К сожалению, это требует отключения узлов по одному, но если вы терпеливы, это выполнимо.

  1. Перед началом убедитесь, что у вас есть все необходимые драйверы. Скопируйте драйвер(ы) на целевой узел, чтобы он был доступен локально. Ваши данные в кластере (и, в частности, общие тома кластера) были зарезервированы, клонированы или перемещены в безопасное место. Вы признаете, что ухудшите качество всех используемых общих томов кластера, а также любых гиперконвергентных виртуальных машин. Вы готовы и можете удалить узел из кластера, если что-то пойдет не так. Это все серьезные предпосылки, и вы должны убедиться, что можете выполнить любое из них по своему усмотрению. Не продолжайте, пока не рассмотрите все это как минимум.
  2. для данного узла, которому требуются обновления драйверов сетевой карты, удалите все активные роли и приготовьтесь приостановить его, как если бы вы начали цикл обслуживания или исправлений.
  3. после завершения слива/паузы приступайте к отключению всех переключателей Hyper-V, которые «обертывают» NICS (если у вас есть такая общая схема). В некоторых развертываниях эта схема используется, чтобы попытаться «объединить» или «связать» сетевые карты в единый интерфейс. Обратите внимание, что в некоторых кластерах этого не будет. Если это так, перейдите к следующему шагу.
  4. перейдите к отключению физических сетевых карт в Windows, подключенных к коммутатору частной структуры. На этом этапе трафик от кластера к узлу не должен проходить.
  5. Откат драйверов может привести к удалению настроек DCB и/или QoS для вашего сетевого адаптера, в зависимости от процесса установки поставщика. Хотя это маловероятно, все же существует вероятность того, что следующим шагом будет пересечение точки невозврата для узла, если это так. Будьте уверены, что вы готовы к тому, что узел не сможет повторно присоединиться к кластеру из-за этой активности.
  6. перейдите к удалению и/или откату драйверов на сетевых картах, назначенных частному коммутатору структуры. Ничего страшного, если по умолчанию используются стандартные драйверы, загруженные с сайта Microsoft, поскольку вы можете заменить их драйверами, которые вы установили ранее на локальный загрузочный диск.
  7. Если стандартные драйверы сетевого адаптера от Microsoft не являются той версией, которая вам нужна, или если драйверы доступны только у поставщика, перейдите к установке драйверов для сетевого адаптера. В зависимости от программного драйвера и ваших обстоятельств вам может потребоваться перезагрузить узел — надеемся, что нет, но будьте готовы, если это произойдет.
  8. Проверьте уровень версии драйвера для каждого сетевого адаптера, подключенного к коммутатору частной структуры. Они должны быть той версии, которая вам нужна. В противном случае примите все необходимые меры для установки правильных драйверов.
  9. Убедитесь, что на хосте присутствуют все правильные настройки, в частности, что функция моста центра обработки данных включена для Windows, что на всех портах NIC частной структуры включен RDMA, что прием DCBX для тех же портов NIC отключен (это правильно , это не опечатка, этоSet-NetQoSDcbxSetting -Willingпараметр), что у вас нет конфликтующих политик QoSPolitic для того, что вам нужно, что у вас есть политика QoS «Кластер», политика «SMB» и политика «SMB Direct», что вы создаете классы трафика ETS для «Кластера» и «SMB Direct» (обратите внимание, что «SMB» будет охватываться «SMB Direct» при использовании порта 445) и что вы назначаете управление потоком NetQoS для кластера (7) и SMB (3) соответственно.
  10. После подтверждения всех настроек сетевого адаптера хоста включите QoS для каждого сетевого адаптера с помощьюEnable-NetAdapterQosКомандлет PowerShell.
  11. Повторно включите физические порты сетевой карты, чтобы восстановить доступ к частному коммутатору структуры.
  12. При использовании переключателей оболочки Hyper-V повторно включите соответствующие «сетевые карты» Hyper-V.
  13. Откройте монитор производительности (старый, скрипучий, о котором все забывают), и разместите на экране несколько строк для RDMA-трафика. После повторного включения сетевых адаптеров вы должны начать видеть поток поступающих согласованных данных, поскольку кластер продолжает бесшумно пересылать S2D-трафик, даже если узел находится в состоянии паузы. Также откройте средство просмотра событий и просмотрите все журналы кластеризации, которые сможете найти, в поисках свидетельств обмена данными с другими узлами.
  14. Если вы удовлетворены работоспособностью узла, приступайте к возобновлению его работы. Вам не обязательно возвращать роли на исходный узел, но это полностью зависит от вас и ваших обстоятельств.
  15. Как только общие тома кластера станут более или менее стабильными, вы можете повторить этот процесс для каждого узла, который в этом нуждается. Прежде чем пытаться выполнить это на другом узле, убедитесь, что ваши CSV-файлы исправны и стабильны. Не торопите процесс.
  16. Как только все узлы стабилизируются, убедитесь, что весь кластер возвращен в эксплуатацию.

В маловероятном сценарии, когда сетевые карты с разными версиями прошивки не работают вместе, ваши действия имеют смысл. Но обычно вам следует изучить возможность обновления с поддержкой кластера CAU. DELL/HP и Lenovo интегрировали CAU в свои рабочие процессы.

Другие вопросы по тегам