VMWare: Массовые ошибки на лезвиях после обновления до 5.5

2015-04-02 12-53-44 srv-vcenter2.transitcard.ru - vSphere Client
После новогоднего обновления кластера VMWare, собранного на лезвиях proliant bl460c g7, с ESXi 5.1 до версии 5.5, в консоли vCenter образовалась совсем не новогодняя елка из ошибок. Заход в iLo лезвий подтвердил, что с оборудованием все в порядке.

Проблемы были явно не связаны между собой: разное количество сенсоров на лезвиях, ошибки в конвертации градус Фаренгейта в градусы Цельсия, ошибки на явно рабочих дисках, — все это подтолкнуло посмотреть в сторону IPMI.

IPMI (от англ. Intelligent Platform Management Interface) — интеллектуальный интерфейс управления платформой, предназначенный для автономного мониторинга и управления функциями, встроенными непосредственно в аппаратное и микропрограммное обеспечения серверных платформ.

Решение проблемы оказалось подробно описанное в Knowledge Base VMWare.

The Host IPMI System Event Log Status alarm is triggered repeatedly in VMware vCenter Server 4.x and 5.x (1033725)

Если коротко, то в vcenter в «Hardware Status» были очищены «System Event log«, похожая операция была сделана в iLo лезвий.

После выполнения двух команд:

~ # localcli hardware ipmi sel clear
~ # /etc/init.d/sfcbd-watchdog restart

была выполнена команда «Reset Sensors» все там же в vcenter в «Hardware Status».

Как результат количество датчиков стало одинаковым и все ошибки исчезли,  что соответствует реальному положению дел.

Вы можете оставить комментарий ниже.