После новогоднего обновления кластера VMWare, собранного на лезвиях proliant bl460c g7, с ESXi 5.1 до версии 5.5, в консоли vCenter образовалась совсем не новогодняя елка из ошибок. Заход в iLo лезвий подтвердил, что с оборудованием все в порядке.
Проблемы были явно не связаны между собой: разное количество сенсоров на лезвиях, ошибки в конвертации градус Фаренгейта в градусы Цельсия, ошибки на явно рабочих дисках, — все это подтолкнуло посмотреть в сторону IPMI.
IPMI (от англ. Intelligent Platform Management Interface) — интеллектуальный интерфейс управления платформой, предназначенный для автономного мониторинга и управления функциями, встроенными непосредственно в аппаратное и микропрограммное обеспечения серверных платформ.
Решение проблемы оказалось подробно описанное в Knowledge Base VMWare.
Если коротко, то в vcenter в «Hardware Status» были очищены «System Event log«, похожая операция была сделана в iLo лезвий.
После выполнения двух команд:
~ # localcli hardware ipmi sel clear ~ # /etc/init.d/sfcbd-watchdog restart |
была выполнена команда «Reset Sensors» все там же в vcenter в «Hardware Status».
Как результат количество датчиков стало одинаковым и все ошибки исчезли, что соответствует реальному положению дел.