Проблемы запуска power5 570


Главная Форумы POWER Systems AIX/Hardware Проблемы запуска power5 570

В этой теме 17 ответов, 6 участников, последнее обновление  Сергей 7 года/лет, 8 мес. назад.

  • Автор
    Сообщения
  • #7367

    Ногаев Павел
    Участник

    Вобщем есть сервер IBM power5 9117-570 из 2 processing units(8 core, 16 gb ram), эксплуатируется уже 5 лет. В один прекрасный момент отказался загружаться, гарантии уже нет. Бросать такую машину кучей бесполезного металлолома не хочется, однако нагрузки с него уже перенесли на другой сервер.

    HMC нет, зашел на сервисный процессор через ASMI(правда пришлось сбросить пароль admin’a),
    пишет ошибки типа:
    5007B1BB 2010-03-25 12:36:57 Service Processor Firmware Unrecoverable Error B1816009
    5007B175 2010-03-25 12:36:45 Service Processor Firmware Predictive Error B181F63B
    5007B1A9 2010-03-25 12:36:45 Memory DIMM Unrecoverable Error, Degraded Performance B123E500
    5007AF34 2010-03-25 12:35:35 Memory DIMM Predictive Error B123E500
    5007AF2F 2010-03-25 12:35:32 Memory DIMM Predictive Error B123E500
    5007AF2B 2010-03-25 12:35:29 Memory DIMM Predictive Error B123E500
    5007AF26 2010-03-25 12:35:26 Memory DIMM Predictive Error B123E500
    5007AF21 2010-03-25 12:35:23 Memory DIMM Predictive Error B123E500
    5007AE45 2010-03-25 12:32:15 Fan (AMD) Unrecoverable Error, Loss of Redundancy 11007620
    5007AE27 2010-03-25 12:31:21 Fan (AMD) Unrecoverable Error, Loss of Redundancy 11007610

    потом когда он сделает Deconfigure Memory ошибки другие:

    5007B65E 2010-03-25 13:01:28 Not Applicable Unrecoverable Error B700F105
    5007B65D 2010-03-25 13:01:28 Service Processor Firmware Predictive Error B181F03E
    5007B63D 2010-03-25 13:00:51 Memory DIMM Predictive Error B123E500
    5007B38F 2010-03-25 12:56:51 Fan (AMD) Unrecoverable Error, Loss of Redundancy 11007620
    5007B38B 2010-03-25 12:55:58 Fan (AMD) Unrecoverable Error, Loss of Redundancy 11007610

    При этом — кулер A1(Fan (AMD)) судя по показаниям диодов — работает. Визуальный осмотр кулера подтверждает это.
    При смене местами плашек памяти в процессорном блоке P2-C1, ошибки всеравно указывают на один и тотже слот(P2-C1-C6). Пытался полностью сделать Deconfigure всей памяти и всех процессоров в верхнем processing unit, всеравно не загружается.
    P.S. загружаю всегда в режиме Slow boot.

    Возможно кто-нибудь что-нибудь сможет подсказать — как реанимировать или хотя бы диагностировать проблему.

  • #7368

    _KIRill
    Хранитель

    Версия микрокода какая? Дайте угадаю… < 235 ?
    Попробуйте микрокод через обновить.

    PS: Куда дели HMC? Обменяли на что-нить 🙂 ?

    ---As If, But Not---

  • #7369

    Sever
    Участник

    11007620
    11007620

    Explanation
    Fan fault
    Response
    The fan is operating at the wrong speed. Follow the instructions for the items listed in the FRU List.
    Problem determination
    No additional problem determination.

    11007610
    11007610

    Explanation
    Fan fault
    Response
    The fan is operating at the wrong speed. Follow the instructions for the items listed in the FRU List.
    Problem determination
    No additional problem determination.

    Это ключевая исходная проблема…. Далее следует перегрев процессорных модулей и наступает «жопа».

    В ASMI взять логи, из них определить — какие фаны барахлят

    лечение = руками «перебрать» фаны (почистить) или купить новые через инет….

  • #7370

    _KIRill
    Хранитель

    Sever насчёт фанов абсолютно прав. Тем не менее, хотелось бы отметить, что подобная ошибка может возникнуть и при некорректном выключении сервера. Может быть (а может и не быть) исправлена путём обновления микрокодов (по крайней мере об этом гугль рассказал 🙂

    ---As If, But Not---

  • #7371

    Ногаев Павел
    Участник

    Версия микрокода SF240_202, HMC изначально не было — покупался сервер без него. Насчет связи фанов и перегрева процессорных модулей предположение неверное, т.к. ругается на фан который обдувает отсек PCI-X слотов в котором ничего не стоит, процессорные модули в 9117-570 обдуваются фанами из расположенных сразу за ними блоков питания, и перегрева процессорных блоков нет совершенно никакого, т.к. я разбирал блок сразу после выключения сервера — все внутри практически комнатной температуры.

    Обновление микрокода в данной ситуации тоже невозможно, т.к. HMC нет, а до загрузки операционной системы даже не доходит.
    Есть ли еще какието варианты запуска сервера? если например вытащить всю память из того блока на который ругается? или целиком процессорный модуль?

  • #7373

    Oldnick
    Участник

    Как вариант можно поискать у коллег в вашем регионе HMC, если есть Tower, тогда еще проще и прошить новый микрокод. ну или по крайней мере сделать диагностику из HMC, так удобне, чем из ASMI. Микрокод обновить — это первое, что нужно постараться сделать.
    ну и наверно следует перебрать все железо, почистить, продуть, разъемы потревожить. хуже точно не будет 🙂
    попробовать вынуть «лишние процессоры» тоже можно попробовать

  • #7374

    Сергей
    Участник

    B123E500 на P2-C1-C6 на 570, ага.

    менять надо пару модулей, C6 и спаренный с ним С3.

    по поводу чего можно вытащить — инфоцентре есть статья как собрать минимальную конфигурацию (как раз для изоляции проблем).

  • #7375

    Ногаев Павел
    Участник

    smk писал(а):

    B123E500 на P2-C1-C6 на 570, ага.

    менять надо пару модулей, C6 и спаренный с ним С3.

    по поводу чего можно вытащить — инфоцентре есть статья как собрать минимальную конфигурацию (как раз для изоляции проблем).

    Можно ссылочку на статью или хотя бы по каким словам искать? модуль который стоял в C6 я пробовал переставлять в другие слоты локация проблемы не изменилась, возможно проблема в C3. а там кстати модули спаренные? вроде по документации счетверенные.
    Продуть прочистить и контакты потревожить — это уже сделано.

  • #7376

    Ногаев Павел
    Участник

    oldnick1971 писал(а):

    Как вариант можно поискать у коллег в вашем регионе HMC

    увы где искать такое в нашем регионе даже ума не приложу, таких коллег знакомых нет. 🙂

  • #7378

    andrewk
    Участник

    тогда возьмите абсолютно любую х86-машинку и поставьте на нее. Инструкция по переделке HMC под VMWare лежит где-то на форуме, и при небольшом добавлении мозгов годится для установки HMC на любое железо 😉

  • #7383

    Сергей
    Участник

    зацикливаться на ХМСе смысла нет — в данной проблеме она не поможет. прошивка относительно свежая (проблемы с памятью были ниже 235, как уже было замечено), а лог АСМИ несет не меньше информации чем ивенты на хмсе.

    Так что экшн-план (B)):
    1) пробуем заменить пару слотов памяти (C3 и C6);
    2) если вдруг не помогло — собираем минимальную конфигурацию (один кек, одна книжка, минимум памяти) — пробуем поднять.

  • #7384

    Ногаев Павел
    Участник

    smk писал(а):

    Так что экшн-план (B)):
    1) пробуем заменить пару слотов памяти (C3 и C6);
    2) если вдруг не помогло — собираем минимальную конфигурацию (один кек, одна книжка, минимум памяти) — пробуем поднять.

    Менять не на что к сожалению, вытащил из C1-C1 C1-C3 C1-6 C1-C8 память. Я нуб честно говоря в system p, асимметричная конфигурация по памяти со вторым процессорным блоком будет вообще работать?

    теперь ошибки:

    5007E0A6 2010-03-26 11:56:45 Not Applicable Unrecoverable Error B7000107
    5007E0A4 2010-03-26 11:56:44 Service Processor Firmware Predictive Error B181F03E
    5007DE1D 2010-03-26 11:55:11 Memory DIMM Predictive Error B123E500
    5007DE19 2010-03-26 11:55:08 Memory DIMM Predictive Error B123E500
    5007DE13 2010-03-26 11:55:04 Memory DIMM Predictive Error B123E500
    5007DE0E 2010-03-26 11:55:02 Memory DIMM Predictive Error B123E500
    5007DE06 2010-03-26 11:54:57 Memory DIMM Predictive Error B123E500
    5007DD31 2010-03-26 11:51:38 Fan (AMD) Unrecoverable Error, Loss of Redundancy 11007620
    5007DD2D 2010-03-26 11:50:45 Fan (AMD) Unrecoverable Error, Loss of Redundancy 11007610

    теперь ругается на память в другом процессорном блоке (P2-C2-C6), попробовать и оттуда вытащить? я потом назад смогу конфигурацию вернуть без кодов активации от IBM?

  • #7388

    Ногаев Павел
    Участник

    Запустить в минимальной конфигурации не получилось, останавливается почти в самом начале загрузки на ошибке:
    B181F22A There was not enough functional hardware found in the system to continue IPLing.

  • #7389

    Сергей
    Участник

    B181F22A — слишком много лишних деталей вытащили. 🙂
    нехватает процессоров/памяти для загрузки. может, что-то уже в деконфиг выпало?..

  • #7395

    Ногаев Павел
    Участник

    smk писал(а):

    B181F22A — слишком много лишних деталей вытащили. 🙂
    нехватает процессоров/памяти для загрузки. может, что-то уже в деконфиг выпало?..

    да нет, отключил только половину, до деконфига даже не доходит, загрузка заканчивается гдето секунд за 20. Судя по ASMI — он помнит про те процессоры и память которые находятся в отключенном и обесточенном блоке, попытка их деконфигурировать тоже ничего не дала.

    Возможно я что-то упустил при отключении блока, хотя вроде отключил Flex кабель с передней панели и с задней тоже..

  • #7397

    Сергей
    Участник

    естессно — там в статье написано, что надо машине объяснить что у нее теперь только один ящик, а не два.

  • #7398

    Ногаев Павел
    Участник

    smk писал(а):

    естессно — там в статье написано, что надо машине объяснить что у нее теперь только один ящик, а не два.

    никак не могу найти данную статью, в Systems Hardware information на ibm, может всеже подскажете ссылку или ключевые слова для того чтобы ее найти?

  • #7399

    Сергей
    Участник

    статью с налета тоже не нашел, но она там есть всяко. по крайней мере, раньше была.

    суть в том, что в ASMI меню System Configuration->Processing Unit Identifier надо ставить в B2 если кек один, и в B3 если кеков два или больше.
    Так же в живом (оставшемся) кеке обязательно должен быть сервис-процессор и VPD карта.

Для ответа в этой теме необходимо авторизоваться.