RHEL6.1 Виртуальные машины зависли при создании приостановленного снимка для резервного копирования
Мои виртуальные машины RHEL 6.1, работающие на хостах ESXi 5.1.0, зависают, когда процедура резервного копирования пытается получить стабилизированный моментальный снимок. Я должен сбросить виртуальные машины с консоли VMware. Инструмент, используемый для остановки виртуальной машины, - SYMCquiesce 1.0.0 от Symantec. Самое странное, что это не всегда дает сбой - резервное копирование запускается каждую неделю... но происходит сбой только каждые две недели.
После прочтения документа VMware http://kb.vmware.com/kb/2038606 и документа RedHat https://access.redhat.com/solutions/484303 и поскольку мне не разрешили перейти на RHEL 6.4, я решил понизьте VMware Tools до ESX 5.0. Согласно этой таблице я удалил инструменты VMware 9.0.15 и установил обратно 8.6.11.26309 (build-1310128). Но эта старая версия не решила проблему... виртуальные машины зависали... каждые две недели.
/etc/vmware-tools/tools.conf
содержит
[vmbackup]
enableSyncDriver = false
[logging]
log = true
vmtoolsd.level = warning
vmtoolsd.handler = vmx
vmss.level = warning
vmss.handler = vmx
Раздел ведения журнала включен в соответствии с этим документом VMware для получения некоторых сообщений журнала на хосте ESXi.
Согласно файлу Symantec README, сценарий /usr/sbin/pre-freeze-script
содержит
/opt/SYMCquiesce/bin/freeze
vmware.log
файл, расположенный в хранилище данных хоста ESXi, содержит следующие строки при успешном создании снимка:
2016-01-11T23: 39: 27.849Z | VMX | I120: Vix: [12153447 vigorCommands.c:481]: VigorSnapshotManager_Take: takeOptions=136, clientFlags=0, displayName=NBU_SNAPSHOT, резервная копия центральная 1452555565, 2016-01-11T23:39:27.879Z| VMX | I120: Начало моментального снимка VMX_TakeSnapshot: 'NBU_SNAPSHOT резервный центральный 1452555565', deviceState=0, ведение журнала = 0, приостановлено =1, forceNative=0, tryNative=1, одноуровневый =0 saveAllocMaps=0 cb=18CA48E0, cbData: 19CD = 19CD: 19CD = 19C: 19CD = 19C: 19CD = 19CC: 19D = 19C) 39: 27.893Z| VMX | I120: DISKLIB-VMFS: "/vmfs/volumes/5314ce6f-2d501c33-de3c-a41f72000c75/myrhel61/solr-flat.vmdk": открыт успешно (65557) размер = 188978561024, hd = 0. Тип 3 2016-01-11T23:39:27.893Z| VMX | I120: DISKLIB-VMFS: "/vmfs/volumes/5314ce6f-2d501c33-de3c-a41f72000c75/myrhel61/solr-flat.vmdk": закрыто. 2016-01-11T23:39:27.927Z| VCPU-2| I120: ToolsBackup: изменение состояния покоя: IDLE -> STARTED 2016-01-11T23:39:29.692Z| VCPU-2| I120: ToolsBackup: изменение состояния покоя: НАЧАЛО -> ЗАВЕРШЕНО 2016-01-11T23:39:29.693Z| VCPU-0| I120: Уничтожение виртуального разработчика для scsi0:0 vscsi=10159 2016-01-11T23:39:29.693Z| VCPU-0| I120: VMMon_VSCSIStopVports: на адаптере нет такой цели 2016-01-11T23:39:29.742Z| VCPU-0| I120: SnapshotVMXTakeSnapshotCB: введите статус контрольной точки 1, режим 0.
Но когда это терпит неудачу, кажется, что инструменты VMware не отвечают - обратите внимание на строки после IDLE -> STARTED
:
2016-01-18T23: 03: 40.412Z | VMX | I120: Vix: [12153447 vigorCommands.c:481]: VigorSnapshotManager_Take: takeOptions=136, clientFlags=0, displayName=NBU_SNAPSHOT, резервная копия, центральная 1453158218 2016-01-18T23:03:40.432Z| VMX | I120: Начало снимка VMX_TakeSnapshot: 'NBU_SNAPSHOT резервный центральный 1453158218', deviceState=0, ведение журнала = 0, приостановлено =1, forceNative=0, tryNative=1, одноуровневый =0 saveAllocMaps=0 cb=18CA48E0, cbData=19 2016-01-18T23:03:40.519Z| VMX | I120: DISKLIB-VMFS: "/vmfs/volumes/5314ce6f-2d501c33-de3c-a41f72000c75/myrhel61/solr-flat.vmdk": открыть успешно (65557) размер = 188978561024, hd = 0. Тип 3 2016-01-18T23:03:40.519Z| VMX | I120: DISKLIB-VMFS: "/vmfs/volumes/5314ce6f-2d501c33-de3c-a41f72000c75/myrhel61/solr-flat.vmdk": закрыто. 2016-01-18T23:03:40.522Z| VCPU-0| I120: ToolsBackup: изменение состояния покоя: IDLE -> STARTED 2016-01-18T23:03:58.715Z| VMX | I120: GuestRpcSendTimedOut: время ожидания сообщения для панели инструментов. 2016-01-18T23:04:03.814Z| VMX | I120: Инструменты: Время ожидания пульса инструментов. 2016-01-18T23:04:13.716Z| VMX | I120: GuestRpcSendTimedOut: время ожидания сообщения для панели инструментов. 2016-01-18T23:04:13.716Z| VMX | I120: GuestRpc: время ожидания второго пинга в наборе инструментов приложения; при условии, что приложение не работает 2016-01-18T23:04:13.717Z| VMX | I120: ToolsBackup: изменение состояния покоя: STARTED -> DONE 2016-01-18T23:04:13.717Z| VMX | I120: моментальный снимок VMXTakeSnapshotComplete: выполнено с моментальным снимком "NBU_SNAPSHOT, резервная копия, центральный 1453158218": 0 2016-01-18T23:04:13.717Z| VMX | I120: SnapshotVMXTakeSnapshotComplete: Снимок 0 не выполнен: не удалось остановить виртуальную машину (40). 2016-01-18T23: 04: 13.718Z | VMX | I120: GuestRpc: реинициализация канала 0 (панель инструментов) 2016-01-18T23: 04: 13.718Z | VMX | I120: GuestMsg: канал 0, не может отменить публикацию, потому что предыдущий пост уже завершен 2016-01-18T23: 04: 13.718Z | VMX | I120: GuestRpc: канал 0 переинициализирован. 2016-01-18T23: 04: 13.718Z | VMX | I120: GuestRpc: канал 0 переинициализирован.
У кого-нибудь есть идеи по решению этой проблемы?
Заранее спасибо.
PD: некоторые другие виртуальные машины RHEL5 также зависают.
обновление 1
Файлы журналов программного обеспечения SYMCquiesce не существуют в даты, когда произошел "зависший" сеанс резервного копирования. В дни, когда сеанс резервного копирования работал успешно, файлы журнала содержат следующее сообщение:
Невозможно выделить общую память
Здесь вы видите календарь последних сеансов резервного копирования:
файл журнала перезагрузки даты ------------ ------ -------- 22 февраля 2016 г. нет да 29 февраля 2016 г. да нет 7 марта 2016 г. нет да 14 марта 2016 нет нет 21 марта 2016 г. да нет 28 марта 2016 г. нет да 4 апреля 2016 г. да нет
14 марта все прошло нормально, потому что сеанс резервного копирования не был запущен.
окончательное обновление
После перехода на версию VMware 5.5 эта проблема исчезла.