HACMP валит систему


Главная Форумы POWER Systems AIX/Hardware HACMP валит систему

В этой теме 5 ответов, 3 участника, последнее обновление  Дмитрий 8 года/лет, 8 мес. назад.

  • Автор
    Сообщения
  • #2605

    byldozer
    Участник

    Во время тестовой остановки сервисов HACMP система переходит в состояние halt.

    Mar 15 14:37:34 TESTa user:notice HACMP for AIX: clexit.rc : Unexpected termination of clstrmgrES.
    Mar 15 14:37:34 TESTa user:notice HACMP for AIX: clexit.rc : Halting system immediately!!!

    Кто сталкивал с подобным. Даная проблема стабильно возникает на 4 из 10 нод.
    ОС — 5300-05-00
    Тип сервера 9117-570
    Прошивка SF240_338
    Версия HACMP-5.4

    Какие будут идеи.
    P.S.Пробовал открыть кейс по софтовой проблеме, но у даного заказчика поддержка закочилась полгода назад, соответственно меня послали.

  • #2644

    Дмитрий
    Участник

    Срабатывает скрипт clexit.rc, а в неём написано: halt -q
    Причина — падение сервиса clstrmgrES.

    Варианты:
    1)разные версии ПО HACMP и/или службы RSCT;
    2) неправильная топология IP и non-IP сетей, приводящая к сигналу DGSP (split-brain).
    3) космические мутанты или что-то ещё.

    Посмотрите error log, hacmp.out, hacmpdebug.out(? название лога неточное). там должна быть причина ошибки.
    Можно попробовать (из практики) отредактировать скрипт clexit.rc, закомментировать там halt -q, дождаться падения clstrmgr и разобраться в ситуации.

  • #2651

    _KIRill
    Хранитель

    Dmitry писал(а):

    Можно попробовать (из практики) отредактировать скрипт clexit.rc, закомментировать там halt -q, дождаться падения clstrmgr и разобраться в ситуации.

    Плохая, очень плохая идея… Просто так нода выключаться не будет. Надо причину искать. Логи смотреть.

    ---As If, But Not---

  • #2653

    Дмитрий
    Участник

    Если нода выключилась, то понять, в каком она была состоянии, можно только включив ноду и внимательно изучив логи.
    А если ноду оставим включённой, то статус посмотреть гораздо проще.

    P.S. Естественно, в таком случае надо очень аккуратно отнестись к работающим бизнес-приложениям.
    В вопросе было: «после ТЕСТОВОЙ остановки». Значит, это не «рабочая» среда.

  • #2666

    byldozer
    Участник

    Система как раз и не тестовая, успешно работала 3 года. А тут во время планового тестирования отказоустойчивости нашли проблему. Хотелось бы решить.
    Большое спасибо буду разбираться.

  • #2717

    Дмитрий
    Участник

    Интересно будет узнать результат.
    Логи Вам помогут!

Для ответа в этой теме необходимо авторизоваться.