SLES 10 SP4 (x86_64) - HP Proliant DL380 G4 - случайно перестает отвечать на запросы

Неудача в обновлении HP Proliant DL380 G4 с SLES 10 SP2 (i586) до SLES 10 SP4 (x86_64). Несмотря на то, что установка прошла гладко, сервер перестал отвечать на запросы после нескольких дней безотказной работы. Сервер отвечает на PING, но SSH и даже консольный доступ не удается. Единственный способ восстановления - это холодная загрузка сервера.

Системные журналы ничего не показывают в журнале, когда сервер не отвечает. При поиске я мог видеть похожие случаи, о которых сообщалось для различных разновидностей Linux, и обычно это устранялось путем обновления BIOS и / или прошивки сервера.

Также пробовал оба acpi=ht и acpi=off при загрузке, но безуспешно.

Я обновил версию BIOS сервера, доступную на паспортном сайте HP по этой ссылке, но это не помогло.

Затем я попытался обновить прошивку контроллера хранилища отсюда

Я перезагрузил сервер и ожидаю, решит ли это проблему. Любые предложения / рекомендации о том, что является основной причиной и как я могу исправить это?

Я мог бы найти один пост, который довольно близко подходит к тому, что я вижу в Ubuntu 12.04 - HP ProLiant DL380 G4 - Максимальная загрузка / Не отвечает

Информация о сервере:

Linux hostname 2.6.16.60-0.85.1-smp #1 SMP Thu Mar 17 11:45:06 UTC 2011 x86_64 x86_64 x86_64 GNU/Linux

> lscpu
Architecture:          x86_64
CPU(s):                4
Thread(s) per core:    2 
Core(s) per socket:    1
CPU socket(s):         2
NUMA node(s):          1
Vendor ID:             GenuineIntel
CPU family:            15
Model:                 4
Stepping:              1
CPU MHz:               3200.225
L1d cache:             16K
L2 cache:              1024K


> modinfo cciss
filename:       /lib/modules/2.6.16.60-0.85.1-smp/updates/cciss.ko
license:        GPL
description:    Driver for HP Smart Array Controllers version 3.6.28-24 (d927/s1461)
author:         Hewlett-Packard Company
srcversion:     737C49390DD1F6FB9BC03F7

>slabtop
 Active / Total Objects (% used)    : 331966 / 339552 (97.8%)
 Active / Total Slabs (% used)      : 20306 / 20315 (100.0%)
 Active / Total Caches (% used)     : 98 / 136 (72.1%)
 Active / Total Size (% used)       : 78133.61K / 79253.95K (98.6%)
 Minimum / Average / Maximum Object : 0.02K / 0.23K / 128.00K

 OBJS ACTIVE  USE OBJ SIZE  SLABS OBJ/SLAB CACHE SIZE NAME
 191752 191637  99%    0.09K   4358       44     17432K buffer_head
 44916  44891  99%    0.20K   2364       19      9456K dentry_cache
 35620  35561  99%    0.78K   7124        5     28496K ext3_inode_cache
 15064  15035  99%    0.52K   2152        7      8608K radix_tree_node
  6510   5859  90%    0.18K    310       21      1240K vm_area_struct
  5782   5689  98%    0.06K     98       59       392K size-64
  3840   3747  97%    0.08K     80       48       320K sysfs_dir_cache
  3288   3271  99%    0.61K    548        6      2192K proc_inode_cache
  3015   2259  74%    0.25K    201       15       804K filp
  2304   2043  88%    0.02K     16      144        64K anon_vma
  2304   1911  82%    0.02K     16      144        64K dm_tio
  2208   1899  86%    0.04K     24       92        96K dm_io
  2106   2096  99%    0.58K    351        6      1404K inode_cache
  1710   1633  95%    0.12K     57       30       228K size-128
  1680   1515  90%    0.03K     15      112        60K size-32
  1480   1169  78%    0.09K     37       40       148K journal_head

Любые указатели будут оценены.

1 ответ

У меня было много RAID-контроллеров HP Smart Array 6400/641/6i SCSI аналогичным образом в 2003-2006 годах с системами Red Hat / CentOS. Вы теряете RAID-контроллер и базовую систему хранения. I/O останавливается и даже не удается войти в консоль, потому что ОС не может читать с диска. Сетевой стек находится в памяти, поэтому система реагирует на пинг.

Некоторые из них - это взаимодействие с водителем. Некоторые из них состоят в том, что эти системы не предназначены для использования с операционными системами сегодня. Там нет никаких вариантов, кроме как использовать более современное оборудование (или, возможно, купить другой блок за 18 долларов на eBay для тестирования). Это не случилось со всеми моими серверами в ту эпоху, но определенно повлияло на некоторых больше, чем на других.

Последовательных обновлений прошивки нет, так как последняя редакция от 2008 года. BIOS системы также прекратил получать обновленные версии в 2008 году. Эта проблема с хранилищем и серверное оборудование не поддерживаются.

DL380 G4 - 10-летний сервер с древней технологией (PCI-X, Ultra SCSI и т. Д.). Ожидаете ли вы поддержку рабочего стола этого винтажа?

См. HP Proliant DL380 G4. Может ли этот сервер работать в 2011 году?

Другие вопросы по тегам