9117-570 — странности с блоками питания


Главная Форумы POWER Systems AIX/Hardware 9117-570 — странности с блоками питания

В этой теме 13 ответов, 5 участников, последнее обновление  Networkadmin 4 года/лет, 11 мес. назад.

  • Автор
    Сообщения
  • #17597

    Andriy
    Участник

    доброго дня, коллеги

    есть старенький 570 (P5) — конфигурация из двух CEC. наткнулся на странное поведение «отказоустойчивой» подсистемы питания.
    нужно было выполнить замену Power Supply. запустил, как положено, через HMC процедуру замены, дошел до этапа извлечения старого блока питания и… на том CEC, где я вытащил один из БП отвалилась намертво вся подсистема I/O — адаптеры потухли наглухо. и не оживали даже с новым блоком питания, после ПОЛНОГО отключения/включения машины. все завелось только после установки назад старого б/п.

    чего не понимаю — допустим, новый б/п дефектный (хотя проверялся на другой машине до этого) и из-за этого система не могла стартовать после после выключения.
    но почему отвалились HBA в процессе замены??? блоки то «ТИПА» отказоустойчивые?

    приватно пообщался с IBM — точно ничего не сказали, пока… может кто натыкался на подобное?

  • #17601

    Oldnick
    Участник

    на сколько я помню, дефектный БП можно просто вынуть находу…
    само собой второй БП должен быть на месте и должен работать.

    может вы перепутали блоки питания, дефектный и второй?
    сзади надо внимательно смотреть на лампочки. может на оставшемся БП лампочки горели как-то не так….?
    ну и, если CEC в данный момент под серьезной нагрузкой, одного БП может не хватить для его работоспособности, надо было снизить нагрузку…

    либо кроме БП еще что-то не так работает, раз система не смогла работать на одном БП.

    сейчас трудно понять что там у вас было, логи надо анализировать…. в сервисном процессоре…

  • #17602

    Andriy
    Участник

    может вы перепутали блоки питания, дефектный и второй?
    сзади надо внимательно смотреть на лампочки. может на оставшемся БП лампочки горели как-то не так….?

    скажите, я при личном общении произвел впечатление идиота? 😉

    шучу, конечно. нет, все проверялось самым тщательным образом. ньюанс один — проблемный б/п не был «дефектный». менялся он по причине «скорого издыхания» — там явно в ближайшее время собирался отказать вентилятор. превентивная замена, так сказать.

    индикация была такая, как положено…
    логи анализировались заранее… как говорится — ничто не предвещало. поэтому мне надо понять, хотя бы, что хоть теоретически могло отказать. единственная гипотеза у меня сейчас:

    если CEC в данный момент под серьезной нагрузкой, одного БП может не хватить для его работоспособности, надо было снизить нагрузку…

    в ближайшее время буду тестировать машину уже в оффлайн режиме, с даунтаймом…

  • #17604

    Sever
    Участник

    Насколько я знаю, при замене одного из двух блоков питания есть один существенный момент. Замена должна быть проведена за период не более пяти минут. Если не уложиться в это время, то происходит принудительное выключение системы.
    Консоль HMC должна выдавать соответствующее предупреждение при попытке произведения подобной замены.

  • #17605

    Andriy
    Участник

    понимаете в чем дело, это уже не первый и не десятый блок питания, который я поменял «за жизнь». между вытащить/вставить обычно проходит не более 20-30 секунд. так было и в этот раз. упало все практически сразу.

  • #17606

    Sever
    Участник

    Значит просто не повезло.
    Обычно, аварии и происходят на операциях, которые до этого производились многократно без каких либо последствий.

  • #17607

    Andriy
    Участник

    ну это понятно… хотелось бы разобраться, что к чему 🙂 по некоторым данным — такая проблема присутствует, т. е. не уникальна и воспроизводима, но с чем связано мне толком не смогли сказать.

  • #17608

    Sever
    Участник

    Может прошивка старая?

  • #17609

    Andriy
    Участник

    SF240_417. не думаю, что поднять до _418 поможет. HMC старовата, но тоже — вряд ли…

  • #17622

    Gremlin
    Участник

    На совсем старых 570-х были подобные проблемы с блоками питания.
    На какой-то неудачной ревизии системного планара горячая замена БП не работала.
    Там, правда, было ещё несколько экзотических условий, которых я уже не помню.
    Так что надо у ИБМ поинтересоваться, пусть поищут в доках.

    Но в вашем случае я бы подозревал случайный сбой. Где-нибудь контакт отошёл, и всё. На 570-ой это вполне вероятно.

  • #17623

    Gremlin
    Участник

    Вот сам в инфоцентре нашёл эти условия:
    [code]Attention: In order to use the power on procedure for this model you must check to see if you have one of the following adapters installed in slot P1-C6/C7.

    FC 1800 — HSL-2 Ports — 2 Copper
    FC 1801 — HSL-2 Ports — 2 Optical
    FC 1810 — GX Dual-port 4x HCA

    Is one of these adapters present in slot P1-C6/C7?

    Yes: Check for a label by the slot that indicates specifically that power supply concurrent maintenance is supported.
    If there is no label you must select the power off procedure to prevent system damage or data loss.
    If there is a label you can continue with the power on procedure.
    No: you can continue with the power on procedure.
    [/code]

  • #17625

    Andriy
    Участник

    ну это все проверено… в общем, спасибо всем, в субботу переберу в offline режиме машину, поглядим.

  • #17626

    Gremlin
    Участник

    Если будете всю разбирать-собирать, то обратите особое внимание на винт в глубине, который крепит планар к собственно корпусу. Иногда бывает не затянут.

  • #17640

    Networkadmin
    Участник

    Кондёры-электролиты в питальниках говно (с названием TEAPO), поэотму и глючит
    подобное было неоднократно в дисковых полках фирмы infortrend

Для ответа в этой теме необходимо авторизоваться.