RHEL6.1 Виртуальные машины зависли при создании приостановленного снимка для резервного копирования

Мои виртуальные машины RHEL 6.1, работающие на хостах ESXi 5.1.0, зависают, когда процедура резервного копирования пытается получить стабилизированный моментальный снимок. Я должен сбросить виртуальные машины с консоли VMware. Инструмент, используемый для остановки виртуальной машины, - SYMCquiesce 1.0.0 от Symantec. Самое странное, что это не всегда дает сбой - резервное копирование запускается каждую неделю... но происходит сбой только каждые две недели.

После прочтения документа VMware http://kb.vmware.com/kb/2038606 и документа RedHat https://access.redhat.com/solutions/484303 и поскольку мне не разрешили перейти на RHEL 6.4, я решил понизьте VMware Tools до ESX 5.0. Согласно этой таблице я удалил инструменты VMware 9.0.15 и установил обратно 8.6.11.26309 (build-1310128). Но эта старая версия не решила проблему... виртуальные машины зависали... каждые две недели.

/etc/vmware-tools/tools.conf содержит

[vmbackup]
enableSyncDriver = false

[logging]
log = true
vmtoolsd.level = warning
vmtoolsd.handler = vmx
vmss.level = warning
vmss.handler = vmx

Раздел ведения журнала включен в соответствии с этим документом VMware для получения некоторых сообщений журнала на хосте ESXi.

Согласно файлу Symantec README, сценарий /usr/sbin/pre-freeze-script содержит

/opt/SYMCquiesce/bin/freeze

vmware.log файл, расположенный в хранилище данных хоста ESXi, содержит следующие строки при успешном создании снимка:

2016-01-11T23: 39: 27.849Z | VMX | I120: Vix: [12153447 vigorCommands.c:481]: VigorSnapshotManager_Take: takeOptions=136, clientFlags=0, displayName=NBU_SNAPSHOT, резервная копия центральная 1452555565, 2016-01-11T23:39:27.879Z| VMX | I120: Начало моментального снимка VMX_TakeSnapshot: 'NBU_SNAPSHOT резервный центральный 1452555565', deviceState=0, ведение журнала = 0, приостановлено =1, forceNative=0, tryNative=1, одноуровневый =0 saveAllocMaps=0 cb=18CA48E0, cbData: 19CD = 19CD: 19CD = 19C: 19CD = 19C: 19CD = 19CC: 19D = 19C) 39: 27.893Z| VMX | I120: DISKLIB-VMFS: "/vmfs/volumes/5314ce6f-2d501c33-de3c-a41f72000c75/myrhel61/solr-flat.vmdk": открыт успешно (65557) размер = 188978561024, hd = 0. Тип 3
2016-01-11T23:39:27.893Z| VMX | I120: DISKLIB-VMFS: "/vmfs/volumes/5314ce6f-2d501c33-de3c-a41f72000c75/myrhel61/solr-flat.vmdk": закрыто.
2016-01-11T23:39:27.927Z| VCPU-2| I120: ToolsBackup: изменение состояния покоя: IDLE -> STARTED
2016-01-11T23:39:29.692Z| VCPU-2| I120: ToolsBackup: изменение состояния покоя: НАЧАЛО -> ЗАВЕРШЕНО 2016-01-11T23:39:29.693Z| VCPU-0| I120: Уничтожение виртуального разработчика для scsi0:0 vscsi=10159
2016-01-11T23:39:29.693Z| VCPU-0| I120: VMMon_VSCSIStopVports: на адаптере нет такой цели 2016-01-11T23:39:29.742Z| VCPU-0| I120: SnapshotVMXTakeSnapshotCB: введите статус контрольной точки 1, режим 0. 

Но когда это терпит неудачу, кажется, что инструменты VMware не отвечают - обратите внимание на строки после IDLE -> STARTED:

2016-01-18T23: 03: 40.412Z | VMX | I120: Vix: [12153447 vigorCommands.c:481]: VigorSnapshotManager_Take: takeOptions=136, clientFlags=0, displayName=NBU_SNAPSHOT, резервная копия, центральная 1453158218
2016-01-18T23:03:40.432Z| VMX | I120: Начало снимка VMX_TakeSnapshot: 'NBU_SNAPSHOT резервный центральный 1453158218', deviceState=0, ведение журнала = 0, приостановлено =1, forceNative=0, tryNative=1, одноуровневый =0 saveAllocMaps=0 cb=18CA48E0, cbData=19
2016-01-18T23:03:40.519Z| VMX | I120: DISKLIB-VMFS: "/vmfs/volumes/5314ce6f-2d501c33-de3c-a41f72000c75/myrhel61/solr-flat.vmdk": открыть успешно (65557) размер = 188978561024, hd = 0. Тип 3
2016-01-18T23:03:40.519Z| VMX | I120: DISKLIB-VMFS: "/vmfs/volumes/5314ce6f-2d501c33-de3c-a41f72000c75/myrhel61/solr-flat.vmdk": закрыто.
2016-01-18T23:03:40.522Z| VCPU-0| I120: ToolsBackup: изменение состояния покоя: IDLE -> STARTED
2016-01-18T23:03:58.715Z| VMX | I120: GuestRpcSendTimedOut: время ожидания сообщения для панели инструментов.
2016-01-18T23:04:03.814Z| VMX | I120: Инструменты: Время ожидания пульса инструментов.
2016-01-18T23:04:13.716Z| VMX | I120: GuestRpcSendTimedOut: время ожидания сообщения для панели инструментов.
2016-01-18T23:04:13.716Z| VMX | I120: GuestRpc: время ожидания второго пинга в наборе инструментов приложения; при условии, что приложение не работает
2016-01-18T23:04:13.717Z| VMX | I120: ToolsBackup: изменение состояния покоя: STARTED -> DONE
2016-01-18T23:04:13.717Z| VMX | I120: моментальный снимок VMXTakeSnapshotComplete: выполнено с моментальным снимком "NBU_SNAPSHOT, резервная копия, центральный 1453158218": 0
2016-01-18T23:04:13.717Z| VMX | I120: SnapshotVMXTakeSnapshotComplete: Снимок 0 не выполнен: не удалось остановить виртуальную машину (40).
2016-01-18T23: 04: 13.718Z | VMX | I120: GuestRpc: реинициализация канала 0 (панель инструментов)
2016-01-18T23: 04: 13.718Z | VMX | I120: GuestMsg: канал 0, не может отменить публикацию, потому что предыдущий пост уже завершен
2016-01-18T23: 04: 13.718Z | VMX | I120: GuestRpc: канал 0 переинициализирован.
2016-01-18T23: 04: 13.718Z | VMX | I120: GuestRpc: канал 0 переинициализирован.

У кого-нибудь есть идеи по решению этой проблемы?

Заранее спасибо.

PD: некоторые другие виртуальные машины RHEL5 также зависают.

обновление 1

Файлы журналов программного обеспечения SYMCquiesce не существуют в даты, когда произошел "зависший" сеанс резервного копирования. В дни, когда сеанс резервного копирования работал успешно, файлы журнала содержат следующее сообщение:

Невозможно выделить общую память

Здесь вы видите календарь последних сеансов резервного копирования:

    файл журнала перезагрузки даты
------------ ------ --------
22 февраля 2016 г. нет да
29 февраля 2016 г. да нет
7 марта 2016 г. нет да
14 марта 2016 нет нет
21 марта 2016 г. да нет
28 марта 2016 г. нет да
4 апреля 2016 г. да нет

14 марта все прошло нормально, потому что сеанс резервного копирования не был запущен.

окончательное обновление

После перехода на версию VMware 5.5 эта проблема исчезла.

0 ответов

Другие вопросы по тегам