Зачем VMWare перестать существовать? Как восстановить / предотвратить это?

Я использую VMWare Server 2.0.2 (сборка 203138) на двухъядерном процессоре Intel i5 с системой Ubuntu Server 10.04 LTS (ядро 2.6.32-22-server #33-Ubuntu SMP). Дисковая подсистема представляет собой программный массив RAID5.

Система была настроена чуть более недели. Последние 5 дней я работал на последних 3 виртуальных машинах (Linux и различных ОС Windows) без каких-либо проблем. Но когда я устанавливал Linux на новую виртуальную машину, внезапно все виртуальные машины перестали отвечать, включая ту, на которую я устанавливал. Я не мог войти в интерфейс управления VMWare, и система несколько не отвечала через SSH. Когда я посмотрел на top, Я видел:

top - 16:14:51 up 6 days,  1:49,  8 users,  load average: 24.29, 24.33 17.54
Tasks: 203 total,   7 running, 195 sleeping,   0 stopped,   1 zombie
Cpu(s):  0.2%us, 25.6%sy,  0.0%ni, 74.3%id,  0.0%wa,  0.0%hi,  0.0%si,  0.0%st
Mem:   8056656k total,  5927580k used,  2129076k free,    20320k buffers
Swap:  7811064k total,   240216k used,  7570848k free,  5045884k cached

  PID USER      PR  NI  VIRT  RES  SHR S %CPU %MEM    TIME+  COMMAND                                                                                                                                                                                               
21549 root      39  19     0    0    0 Z  100  0.0  15:02.44 [vmware-vmx] <defunct>
 2115 root      20   0     0    0    0 S    1  0.0 170:32.08 [vmware-rtc]
 2231 root      21   1 1494m 126m 100m S    1  1.6 892:58.05 /usr/lib/vmware/bin/vmware-vmx -# product=2;                                                                                                                                                                                       
 2280 jnet      20   0 19320 1164  800 R    0  0.0  30:04.55 top 
12236 root      20   0  833m  41m  34m S    0  0.5  88:34.24 /usr/lib/vmware/bin/vmware-vmx -# product=2;
    1 root      20   0 23704 1476  920 S    0  0.0   0:00.80 /sbin/init                                                                                                                                                                                             
    2 root      20   0     0    0    0 S    0  0.0   0:00.01 [kthreadd]                                                                                                                                                                                             
    3 root      RT   0     0    0    0 S    0  0.0   0:00.00 [migration/0]                                                                                                                                                                                          
    4 root      20   0     0    0    0 S    0  0.0   0:00.84 [ksoftirqd/0]                                                                                                                                                                                          
    5 root      RT   0     0    0    0 S    0  0.0   0:00.00 [watchdog/0]                                                                                                                                                                                           
    6 root      RT   0     0    0    0 S    0  0.0   0:00.00 [migration/1]                                                                                                                                                                                          

Процесс VMWare для виртуальной машины, в которую я устанавливал, стал зомби. Тем не менее, он все еще занимал 100% процессорного времени на одном из ядер, и я не мог добраться до него или любых других виртуальных машин. (Я вошел в одну виртуальную машину через SSH, другую через X11 и третью через VNC. Все три соединения умерли). Когда я побежал ps -ef и подобные команды, я обнаружил, что несуществующий vmware-vmx У процесса был установлен родительский PID init (1). Я также использовал lsof -p 21549 и обнаружил, что у несуществующего процесса не было открытых файлов. Тем не менее он использовал 100% процессорного времени...

Я не смог убить ни одного vmware-vmx процессы, в том числе и несуществующие, даже при kill -9, В крайнем случае, чтобы разрешить ситуацию, я попытался перезагрузить окно, однако shutdown, halt, reboot, а также init 6 все не удалось перезагрузить / выключить, даже если дано соответствующее --force Настройки. ControlAltDel выдал сообщение о перезагрузке на консоли, но система не перезагрузилась. Мне пришлось жестко выключить и снова включить коробку, чтобы разрешить ситуацию. (См. Другой мой вопрос: стоит ли мне беспокоиться о целостности моего программного обеспечения Linux5 RAID5 после сбоя или паники ядра?)

Что вызвало бы такой сценарий? Что еще я мог сделать, чтобы решить эту проблему, кроме полной перезагрузки? Что я могу сделать, чтобы предотвратить такую ​​ситуацию в будущем?

2 ответа

Решение

К сожалению, мне так и не удалось найти решение этой проблемы. Казалось, это проблема, присущая VMware Server.

С тех пор мы перешли на VMWare ESXi. Это миры лучше, нет сравнения! У меня никогда не было подобных проблем с ESXi.

Ознакомьтесь с этим сообщением на форуме VMWare и посмотрите, поможет ли это: http://communities.vmware.com/message/531884

Отключение совместного использования памяти является хорошей идеей, если у вас есть оперативная память.

Я собрал некоторые оптимизации, которые я использую для VMWare Server 2 в Ubuntu здесь: http://www.stress-free.co.nz/vmware_server_20_optimisations

Я никогда не сталкивался с проблемой, которую вы описали, и я использую рабочие серверы с Ubuntu Server 8.04LTS и 10.04LTS (как 32-битными, так и 64-битными).

Другие вопросы по тегам