power 770 проблемы с железом


Главная Форумы POWER Systems AIX/Hardware power 770 проблемы с железом

В этой теме 13 ответов, 7 участников, последнее обновление  Mihail Belousov 11 мес., 1 неделя назад.

  • Автор
    Сообщения
  • #39500

    Mihail Belousov
    Участник

    Есть power 770. После аварийного отключение питания при включении в HMC появилась ошибка «No functional direct memory access (DMA) paths were found. The system cannot boot». На первой коробке отсутствует активность на всех интерфейсах. Просмотр FRU кодов выдает что неисправны:

    74Y8860 FRU SCM U78C0.001.DBJ6744-P3-C22

    00E1248 FRU Flexible Service Processor Card or Passthru Card U78C0.001.DBJ6744-P1-C1

    74Y8860 FRU SCM U78C0.001.DBJ6744-P3-C25

    В ASM в разделе deconfiguration:

    Processor Deconfiguration

    Total system processors: 32

    Total system configured processors: 16

    Total system deconfigured processors: 16

    Memory Deconfiguration

    Total system memory: 524288 MB

    Total system configured memory: 262144 MB

    Total system deconfigured memory: 262144 MB

    Сапорта пока нет, закончился.

    Ваши совет что можно сделать? Не верится что из за проподания электропитания могли выйти из строя процессора.

  • #39501

    sdudnik
    Участник

    Попробовать сконфигурировать все ресурсы. Как правило пропадание питания является одной из основных причин выхода из строя оборудования.

  • #39503

    Sever
    Участник

    Сапорта пока нет, закончился.

    Ваши совет что можно сделать? Не верится что из за проподания электропитания могли выйти из строя процессора.

    Совет: Нужно найти деньги на поддержку и ремонт или купить новый сервер.
    Если денег нет, то «забить».

    По сути проблемы: логически деконфигурировалось 50% системы, весь CEC целиком. В такой ситуации ничего работать не будет. Нужно сбросить деконфигурацию и попытаться запустить сервер. Как это сделать подскажет поддержка IBM.

    • Ответ изменён 11 мес., 2 нед. назад пользователем  Sever.
  • #39511

    Michael
    Участник

    Сапорта пока нет, закончился.

    Давно ли истёк срок техподдержки или гарантии?

    Sever говорит правильно: лучше купить техподдержку и сразу же открыть заявку на ремонт, это обойдётся дешевле, чем открывать заявку в IBM на платный ремонт.

    У Вас сам сервер собран всего из двух модулей или в нём 3-4 модуля?

    • #39512

      Mihail Belousov
      Участник

      Точных данных по дате окончания поддержки нет. Сейчас запросил стоимость, тогда и узнаю. Сервер собран из двух модулей. Не слышал про платный ремонт в IBM, это через официальный сервис?

  • #39515

    andrewk
    Участник

    а что у вас за 770й сервер и какой в нем FSP (как давно куплен)? В некоторых 770х серверах были проблемы с FSP, которые IBM меняла за свой счет в случае, если у клиента был контракт с IBM 😉 доку от IBM сейчас вряд ли смогу найти — было около года-двух назад.

  • #39521

    Mihail Belousov
    Участник

    Куплен в конце 2012 года. FRU: Service Processor (SP) Part number: 00E1215 FRU number: 00E1248.

  • #39529

    Дмитрий
    Участник

    Замена FSP была. Но имхо это всё для тех, у кого есть контракт. Самому FSP поменять вряд-ли получится. В нём все серийники и коды активаций.
    У IBM есть вариант платного ремонта: time and materials.
    Это как в официальном негарантийном [авто]сервисе: подписываете контракт, платите за диагностику, после этого уже стоимость ремонта и сам ремонт. Если вылезет что-то ещё, то возвращаемся к п.1. Примерно, наверное, в простом случае, смогут общую стоимость озвучить. Но лучше обратитесь к первоисточнику.
    Сочувствую.

    Бывают варианты, когда вместо ремонта дешевле посмотреть в сторону б/у системы.

  • #39545

    Michael
    Участник

    Сервер собран из двух модулей. Не слышал про платный ремонт в IBM, это через официальный сервис?

    Куплен в конце 2012 года.

    0. Если при закупке не извращались со снижением цены за счёт гарантии, то стандартная гарантия на Ваш сервер должна быть = 3 года, т. е. закончилась год назад.

    1. Если пойдёте на заключение контракта на техподдержку хотя бы на год, то IBM заставит Вас заплатить и за 2016 год, когда гарантия уже истекла, а техподдержку не продлили.

    2. Платный ремонт, скорее всего, обойдётся Вам гораздо дороже, чем техподдержка. И будет значительно дольше по времени, чем ремонт по техподдержке. Потому что, насколько мне известно, при платном ремонте IBM свято придерживается принципа 100% предоплаты любых действий до начала выполнения очередного этапа работ. Да и расценки на запчасти при платном ремонте могут оказаться несколько выше, чем если бы Вы покупали запчасти просто так, про запас.

     

    Раз сервер у Вас двухмодульный, если денег на ремонт или техподдержку не найдётся, то можно попробовать на свой страх и риск отсоединить проблемный модуль и попытаться завести сервер в одномодульном варианте.

    Нюансы этого варианта: у Вас заработает только половина сервера и этой мощности Вам может не хватить.

  • #39550

    Oleg
    Участник

    Не верится что из за проподания электропитания могли выйти из строя процессора.

    это точно не процессоры и не память (все не могли отказать одновременнно)

    скорее VRM (достаточно чтобы отказал 1 из 3 — и весь CEC уже не будет стартовать) или сервисный процессор

    в любом случае, чтобы сконфигурировать деконфигурированные ресурсы проблемного  CEC понадобится временный пароль для celogin от поддержки IBM (если мне не изменяет память…)

     

  • #39552

    Sever
    Участник

    Зачем гадать, давайте попросим хронологический лог ASMI.
    Михаил, выложите пожалуйста на обозрение ПОЛНЫЙ лог из ASMI без каких либо купюр.
    Этим мы точно не отнимет хлеб у IBM…

    • Ответ изменён 11 мес., 2 нед. назад пользователем  Sever.
  • #39554

    Mihail Belousov
    Участник

    Зачем гадать, давайте попросим хронологический лог ASMI. Михаил, выложите пожалуйста на обозрение ПОЛНЫЙ лог из ASMI без каких либо купюр. Этим мы точно не отнимет хлеб у IBM…

    Выкладываю. Кто знает там есть ротация, что то мало в нем событий.

    Вложения:
    You must be logged in to view attached files.
  • #39558

    Sever
    Участник

    Спасибо.
    Пытался урывками разобраться и выстроить хронологию, но каша получилась жуткая. Проблемы с деконфигурацией DIMMа памяти и процессора были в ноябре в одном кеке, в декабре же вы уже «лечили» другой блок. В итоге можно только констатировать, что этот сервер точно имеет HW проблемы и подлежит лечению онсайт специалистом. Удаленно давать советы по лечению бессмысленно.
    Из логов 🙂 видно, что у вас есть второй аналогичный сервер, на котором сейчас и должно все работать. Так же у вас должен быть и третий сервер с чуть меньшими ресурсами. Если с саппортом IBM и ремонтом дело не выгорит, то переделайте ваш кластер задействовав этот третий сервер, а проблемный пустите на запчасти.
    Рекомендую рассмотреть вопрос об апгрейде всего этого хозяйства на базе серверов Power8. Вам вполне хватит ресурсов двух S824 для построения аналогичного кластера.

  • #39560

    Mihail Belousov
    Участник

    Ресурсы перетащил в первую очередь. Всем спасибо. Будем пробовать поставить на гарантию, если деньги найдутся.

Для ответа в этой теме необходимо авторизоваться.