power 770 проблемы с железом

Главная Форумы POWER Systems AIX/Hardware power 770 проблемы с железом

Просмотр 12 веток ответов
  • Автор
    Сообщения
    • #39500
      Mihail Belousov
      Участник

      Есть power 770. После аварийного отключение питания при включении в HMC появилась ошибка “No functional direct memory access (DMA) paths were found. The system cannot boot”. На первой коробке отсутствует активность на всех интерфейсах. Просмотр FRU кодов выдает что неисправны:

      74Y8860 FRU SCM U78C0.001.DBJ6744-P3-C22

      00E1248 FRU Flexible Service Processor Card or Passthru Card U78C0.001.DBJ6744-P1-C1

      74Y8860 FRU SCM U78C0.001.DBJ6744-P3-C25

      В ASM в разделе deconfiguration:

      Processor Deconfiguration

      Total system processors: 32

      Total system configured processors: 16

      Total system deconfigured processors: 16

      Memory Deconfiguration

      Total system memory: 524288 MB

      Total system configured memory: 262144 MB

      Total system deconfigured memory: 262144 MB

      Сапорта пока нет, закончился.

      Ваши совет что можно сделать? Не верится что из за проподания электропитания могли выйти из строя процессора.

    • #39501
      sdudnik
      Участник

      Попробовать сконфигурировать все ресурсы. Как правило пропадание питания является одной из основных причин выхода из строя оборудования.

    • #39503
      Sever
      Участник

      Сапорта пока нет, закончился.

      Ваши совет что можно сделать? Не верится что из за проподания электропитания могли выйти из строя процессора.

      Совет: Нужно найти деньги на поддержку и ремонт или купить новый сервер.
      Если денег нет, то “забить”.

      По сути проблемы: логически деконфигурировалось 50% системы, весь CEC целиком. В такой ситуации ничего работать не будет. Нужно сбросить деконфигурацию и попытаться запустить сервер. Как это сделать подскажет поддержка IBM.

      • Ответ изменён 3 года, 9 месяцев назад пользователем Sever.
    • #39511
      Michael
      Участник

      Сапорта пока нет, закончился.

      Давно ли истёк срок техподдержки или гарантии?

      Sever говорит правильно: лучше купить техподдержку и сразу же открыть заявку на ремонт, это обойдётся дешевле, чем открывать заявку в IBM на платный ремонт.

      У Вас сам сервер собран всего из двух модулей или в нём 3-4 модуля?

      • #39512
        Mihail Belousov
        Участник

        Точных данных по дате окончания поддержки нет. Сейчас запросил стоимость, тогда и узнаю. Сервер собран из двух модулей. Не слышал про платный ремонт в IBM, это через официальный сервис?

    • #39515
      andrewk
      Участник

      а что у вас за 770й сервер и какой в нем FSP (как давно куплен)? В некоторых 770х серверах были проблемы с FSP, которые IBM меняла за свой счет в случае, если у клиента был контракт с IBM 😉 доку от IBM сейчас вряд ли смогу найти – было около года-двух назад.

    • #39521
      Mihail Belousov
      Участник

      Куплен в конце 2012 года. FRU: Service Processor (SP) Part number: 00E1215 FRU number: 00E1248.

    • #39529
      Дмитрий
      Участник

      Замена FSP была. Но имхо это всё для тех, у кого есть контракт. Самому FSP поменять вряд-ли получится. В нём все серийники и коды активаций.
      У IBM есть вариант платного ремонта: time and materials.
      Это как в официальном негарантийном [авто]сервисе: подписываете контракт, платите за диагностику, после этого уже стоимость ремонта и сам ремонт. Если вылезет что-то ещё, то возвращаемся к п.1. Примерно, наверное, в простом случае, смогут общую стоимость озвучить. Но лучше обратитесь к первоисточнику.
      Сочувствую.

      Бывают варианты, когда вместо ремонта дешевле посмотреть в сторону б/у системы.

    • #39545
      Michael
      Участник

      Сервер собран из двух модулей. Не слышал про платный ремонт в IBM, это через официальный сервис?

      Куплен в конце 2012 года.

      0. Если при закупке не извращались со снижением цены за счёт гарантии, то стандартная гарантия на Ваш сервер должна быть = 3 года, т. е. закончилась год назад.

      1. Если пойдёте на заключение контракта на техподдержку хотя бы на год, то IBM заставит Вас заплатить и за 2016 год, когда гарантия уже истекла, а техподдержку не продлили.

      2. Платный ремонт, скорее всего, обойдётся Вам гораздо дороже, чем техподдержка. И будет значительно дольше по времени, чем ремонт по техподдержке. Потому что, насколько мне известно, при платном ремонте IBM свято придерживается принципа 100% предоплаты любых действий до начала выполнения очередного этапа работ. Да и расценки на запчасти при платном ремонте могут оказаться несколько выше, чем если бы Вы покупали запчасти просто так, про запас.

       

      Раз сервер у Вас двухмодульный, если денег на ремонт или техподдержку не найдётся, то можно попробовать на свой страх и риск отсоединить проблемный модуль и попытаться завести сервер в одномодульном варианте.

      Нюансы этого варианта: у Вас заработает только половина сервера и этой мощности Вам может не хватить.

    • #39550
      Oleg
      Участник

      Не верится что из за проподания электропитания могли выйти из строя процессора.

      это точно не процессоры и не память (все не могли отказать одновременнно)

      скорее VRM (достаточно чтобы отказал 1 из 3 – и весь CEC уже не будет стартовать) или сервисный процессор

      в любом случае, чтобы сконфигурировать деконфигурированные ресурсы проблемного  CEC понадобится временный пароль для celogin от поддержки IBM (если мне не изменяет память…)

       

    • #39552
      Sever
      Участник

      Зачем гадать, давайте попросим хронологический лог ASMI.
      Михаил, выложите пожалуйста на обозрение ПОЛНЫЙ лог из ASMI без каких либо купюр.
      Этим мы точно не отнимет хлеб у IBM…

      • Ответ изменён 3 года, 9 месяцев назад пользователем Sever.
    • #39554
      Mihail Belousov
      Участник

      Зачем гадать, давайте попросим хронологический лог ASMI. Михаил, выложите пожалуйста на обозрение ПОЛНЫЙ лог из ASMI без каких либо купюр. Этим мы точно не отнимет хлеб у IBM…

      Выкладываю. Кто знает там есть ротация, что то мало в нем событий.

      Вложения:
      Вы должны войти для просмотра вложений.
    • #39558
      Sever
      Участник

      Спасибо.
      Пытался урывками разобраться и выстроить хронологию, но каша получилась жуткая. Проблемы с деконфигурацией DIMMа памяти и процессора были в ноябре в одном кеке, в декабре же вы уже “лечили” другой блок. В итоге можно только констатировать, что этот сервер точно имеет HW проблемы и подлежит лечению онсайт специалистом. Удаленно давать советы по лечению бессмысленно.
      Из логов 🙂 видно, что у вас есть второй аналогичный сервер, на котором сейчас и должно все работать. Так же у вас должен быть и третий сервер с чуть меньшими ресурсами. Если с саппортом IBM и ремонтом дело не выгорит, то переделайте ваш кластер задействовав этот третий сервер, а проблемный пустите на запчасти.
      Рекомендую рассмотреть вопрос об апгрейде всего этого хозяйства на базе серверов Power8. Вам вполне хватит ресурсов двух S824 для построения аналогичного кластера.

    • #39560
      Mihail Belousov
      Участник

      Ресурсы перетащил в первую очередь. Всем спасибо. Будем пробовать поставить на гарантию, если деньги найдутся.

Просмотр 12 веток ответов
  • Для ответа в этой теме необходимо авторизоваться.