power 770 проблемы с железом


Главная Форумы POWER Systems AIX/Hardware power 770 проблемы с железом

В этой теме 13 ответов, 7 участников, последнее обновление  Mihail Belousov 4 мес., 2 нед. назад.

Aliexpress INT
  • Автор
    Сообщения
  • #39500

    Mihail Belousov
    Участник
    Aliexpress INT

    Есть power 770. После аварийного отключение питания при включении в HMC появилась ошибка «No functional direct memory access (DMA) paths were found. The system cannot boot». На первой коробке отсутствует активность на всех интерфейсах. Просмотр FRU кодов выдает что неисправны:

    74Y8860 FRU SCM U78C0.001.DBJ6744-P3-C22

    00E1248 FRU Flexible Service Processor Card or Passthru Card U78C0.001.DBJ6744-P1-C1

    74Y8860 FRU SCM U78C0.001.DBJ6744-P3-C25

    В ASM в разделе deconfiguration:

    Processor Deconfiguration

    Total system processors: 32

    Total system configured processors: 16

    Total system deconfigured processors: 16

    Memory Deconfiguration

    Total system memory: 524288 MB

    Total system configured memory: 262144 MB

    Total system deconfigured memory: 262144 MB

    Сапорта пока нет, закончился.

    Ваши совет что можно сделать? Не верится что из за проподания электропитания могли выйти из строя процессора.

  • #39501
    Картинка профиля sdudnik
    sdudnik
    Участник

    Попробовать сконфигурировать все ресурсы. Как правило пропадание питания является одной из основных причин выхода из строя оборудования.

  • #39503
    Картинка профиля Sever
    Sever
    Участник

    Сапорта пока нет, закончился.

    Ваши совет что можно сделать? Не верится что из за проподания электропитания могли выйти из строя процессора.

    Совет: Нужно найти деньги на поддержку и ремонт или купить новый сервер.
    Если денег нет, то «забить».

    По сути проблемы: логически деконфигурировалось 50% системы, весь CEC целиком. В такой ситуации ничего работать не будет. Нужно сбросить деконфигурацию и попытаться запустить сервер. Как это сделать подскажет поддержка IBM.

    • Ответ изменён 4 мес., 3 нед. назад пользователем Картинка профиля Sever Sever.
  • #39511
    Картинка профиля Michael
    Michael
    Участник

    Сапорта пока нет, закончился.

    Давно ли истёк срок техподдержки или гарантии?

    Sever говорит правильно: лучше купить техподдержку и сразу же открыть заявку на ремонт, это обойдётся дешевле, чем открывать заявку в IBM на платный ремонт.

    У Вас сам сервер собран всего из двух модулей или в нём 3-4 модуля?

    • #39512

      Mihail Belousov
      Участник

      Точных данных по дате окончания поддержки нет. Сейчас запросил стоимость, тогда и узнаю. Сервер собран из двух модулей. Не слышал про платный ремонт в IBM, это через официальный сервис?

  • #39515
    Картинка профиля andrewk
    andrewk
    Участник

    а что у вас за 770й сервер и какой в нем FSP (как давно куплен)? В некоторых 770х серверах были проблемы с FSP, которые IBM меняла за свой счет в случае, если у клиента был контракт с IBM 😉 доку от IBM сейчас вряд ли смогу найти — было около года-двух назад.

  • #39521

    Mihail Belousov
    Участник

    Куплен в конце 2012 года. FRU: Service Processor (SP) Part number: 00E1215 FRU number: 00E1248.

  • #39529
    Картинка профиля Дмитрий
    Дмитрий
    Участник

    Замена FSP была. Но имхо это всё для тех, у кого есть контракт. Самому FSP поменять вряд-ли получится. В нём все серийники и коды активаций.
    У IBM есть вариант платного ремонта: time and materials.
    Это как в официальном негарантийном [авто]сервисе: подписываете контракт, платите за диагностику, после этого уже стоимость ремонта и сам ремонт. Если вылезет что-то ещё, то возвращаемся к п.1. Примерно, наверное, в простом случае, смогут общую стоимость озвучить. Но лучше обратитесь к первоисточнику.
    Сочувствую.

    Бывают варианты, когда вместо ремонта дешевле посмотреть в сторону б/у системы.

  • #39545
    Картинка профиля Michael
    Michael
    Участник

    Сервер собран из двух модулей. Не слышал про платный ремонт в IBM, это через официальный сервис?

    Куплен в конце 2012 года.

    0. Если при закупке не извращались со снижением цены за счёт гарантии, то стандартная гарантия на Ваш сервер должна быть = 3 года, т. е. закончилась год назад.

    1. Если пойдёте на заключение контракта на техподдержку хотя бы на год, то IBM заставит Вас заплатить и за 2016 год, когда гарантия уже истекла, а техподдержку не продлили.

    2. Платный ремонт, скорее всего, обойдётся Вам гораздо дороже, чем техподдержка. И будет значительно дольше по времени, чем ремонт по техподдержке. Потому что, насколько мне известно, при платном ремонте IBM свято придерживается принципа 100% предоплаты любых действий до начала выполнения очередного этапа работ. Да и расценки на запчасти при платном ремонте могут оказаться несколько выше, чем если бы Вы покупали запчасти просто так, про запас.

     

    Раз сервер у Вас двухмодульный, если денег на ремонт или техподдержку не найдётся, то можно попробовать на свой страх и риск отсоединить проблемный модуль и попытаться завести сервер в одномодульном варианте.

    Нюансы этого варианта: у Вас заработает только половина сервера и этой мощности Вам может не хватить.

  • #39550
    Картинка профиля Oleg
    Oleg
    Участник

    Не верится что из за проподания электропитания могли выйти из строя процессора.

    это точно не процессоры и не память (все не могли отказать одновременнно)

    скорее VRM (достаточно чтобы отказал 1 из 3 — и весь CEC уже не будет стартовать) или сервисный процессор

    в любом случае, чтобы сконфигурировать деконфигурированные ресурсы проблемного  CEC понадобится временный пароль для celogin от поддержки IBM (если мне не изменяет память…)

     

  • #39552
    Картинка профиля Sever
    Sever
    Участник

    Зачем гадать, давайте попросим хронологический лог ASMI.
    Михаил, выложите пожалуйста на обозрение ПОЛНЫЙ лог из ASMI без каких либо купюр.
    Этим мы точно не отнимет хлеб у IBM…

    • Ответ изменён 4 мес., 2 нед. назад пользователем Картинка профиля Sever Sever.
  • #39554

    Mihail Belousov
    Участник

    Зачем гадать, давайте попросим хронологический лог ASMI. Михаил, выложите пожалуйста на обозрение ПОЛНЫЙ лог из ASMI без каких либо купюр. Этим мы точно не отнимет хлеб у IBM…

    Выкладываю. Кто знает там есть ротация, что то мало в нем событий.

    Вложения:
    You must be logged in to view attached files.
  • #39558
    Картинка профиля Sever
    Sever
    Участник

    Спасибо.
    Пытался урывками разобраться и выстроить хронологию, но каша получилась жуткая. Проблемы с деконфигурацией DIMMа памяти и процессора были в ноябре в одном кеке, в декабре же вы уже «лечили» другой блок. В итоге можно только констатировать, что этот сервер точно имеет HW проблемы и подлежит лечению онсайт специалистом. Удаленно давать советы по лечению бессмысленно.
    Из логов 🙂 видно, что у вас есть второй аналогичный сервер, на котором сейчас и должно все работать. Так же у вас должен быть и третий сервер с чуть меньшими ресурсами. Если с саппортом IBM и ремонтом дело не выгорит, то переделайте ваш кластер задействовав этот третий сервер, а проблемный пустите на запчасти.
    Рекомендую рассмотреть вопрос об апгрейде всего этого хозяйства на базе серверов Power8. Вам вполне хватит ресурсов двух S824 для построения аналогичного кластера.

  • #39560

    Mihail Belousov
    Участник

    Ресурсы перетащил в первую очередь. Всем спасибо. Будем пробовать поставить на гарантию, если деньги найдутся.

Для ответа в этой теме необходимо авторизоваться.