Главная › Форумы › POWER Systems › AIX/Hardware › power 770 проблемы с железом
- В этой теме 13 ответов, 7 участников, последнее обновление 4 года, 4 месяца назад сделано
Mihail Belousov.
-
АвторСообщения
-
-
05.12.2016 в 12:29 #39500
Mihail Belousov
УчастникЕсть power 770. После аварийного отключение питания при включении в HMC появилась ошибка “No functional direct memory access (DMA) paths were found. The system cannot boot”. На первой коробке отсутствует активность на всех интерфейсах. Просмотр FRU кодов выдает что неисправны:
74Y8860 FRU SCM U78C0.001.DBJ6744-P3-C22
00E1248 FRU Flexible Service Processor Card or Passthru Card U78C0.001.DBJ6744-P1-C1
74Y8860 FRU SCM U78C0.001.DBJ6744-P3-C25
В ASM в разделе deconfiguration:
Processor Deconfiguration
Total system processors: 32
Total system configured processors: 16
Total system deconfigured processors: 16
Memory Deconfiguration
Total system memory: 524288 MB
Total system configured memory: 262144 MB
Total system deconfigured memory: 262144 MB
Сапорта пока нет, закончился.
Ваши совет что можно сделать? Не верится что из за проподания электропитания могли выйти из строя процессора.
-
05.12.2016 в 12:51 #39501
sdudnik
УчастникПопробовать сконфигурировать все ресурсы. Как правило пропадание питания является одной из основных причин выхода из строя оборудования.
-
05.12.2016 в 22:57 #39503
Sever
УчастникСапорта пока нет, закончился.
Ваши совет что можно сделать? Не верится что из за проподания электропитания могли выйти из строя процессора.
Совет: Нужно найти деньги на поддержку и ремонт или купить новый сервер.
Если денег нет, то “забить”.По сути проблемы: логически деконфигурировалось 50% системы, весь CEC целиком. В такой ситуации ничего работать не будет. Нужно сбросить деконфигурацию и попытаться запустить сервер. Как это сделать подскажет поддержка IBM.
-
Ответ изменён 4 года, 4 месяца назад пользователем
Sever.
-
Ответ изменён 4 года, 4 месяца назад пользователем
-
06.12.2016 в 10:28 #39511
Michael
УчастникСапорта пока нет, закончился.
Давно ли истёк срок техподдержки или гарантии?
Sever говорит правильно: лучше купить техподдержку и сразу же открыть заявку на ремонт, это обойдётся дешевле, чем открывать заявку в IBM на платный ремонт.
У Вас сам сервер собран всего из двух модулей или в нём 3-4 модуля?
-
06.12.2016 в 10:34 #39512
Mihail Belousov
УчастникТочных данных по дате окончания поддержки нет. Сейчас запросил стоимость, тогда и узнаю. Сервер собран из двух модулей. Не слышал про платный ремонт в IBM, это через официальный сервис?
-
-
06.12.2016 в 12:13 #39515
andrewk
Участника что у вас за 770й сервер и какой в нем FSP (как давно куплен)? В некоторых 770х серверах были проблемы с FSP, которые IBM меняла за свой счет в случае, если у клиента был контракт с IBM 😉 доку от IBM сейчас вряд ли смогу найти – было около года-двух назад.
-
06.12.2016 в 14:20 #39521
Mihail Belousov
УчастникКуплен в конце 2012 года. FRU: Service Processor (SP) Part number: 00E1215 FRU number: 00E1248.
-
06.12.2016 в 23:24 #39529
Дмитрий
УчастникЗамена FSP была. Но имхо это всё для тех, у кого есть контракт. Самому FSP поменять вряд-ли получится. В нём все серийники и коды активаций.
У IBM есть вариант платного ремонта: time and materials.
Это как в официальном негарантийном [авто]сервисе: подписываете контракт, платите за диагностику, после этого уже стоимость ремонта и сам ремонт. Если вылезет что-то ещё, то возвращаемся к п.1. Примерно, наверное, в простом случае, смогут общую стоимость озвучить. Но лучше обратитесь к первоисточнику.
Сочувствую.Бывают варианты, когда вместо ремонта дешевле посмотреть в сторону б/у системы.
-
07.12.2016 в 10:01 #39545
Michael
УчастникСервер собран из двух модулей. Не слышал про платный ремонт в IBM, это через официальный сервис?
Куплен в конце 2012 года.
0. Если при закупке не извращались со снижением цены за счёт гарантии, то стандартная гарантия на Ваш сервер должна быть = 3 года, т. е. закончилась год назад.
1. Если пойдёте на заключение контракта на техподдержку хотя бы на год, то IBM заставит Вас заплатить и за 2016 год, когда гарантия уже истекла, а техподдержку не продлили.
2. Платный ремонт, скорее всего, обойдётся Вам гораздо дороже, чем техподдержка. И будет значительно дольше по времени, чем ремонт по техподдержке. Потому что, насколько мне известно, при платном ремонте IBM свято придерживается принципа 100% предоплаты любых действий до начала выполнения очередного этапа работ. Да и расценки на запчасти при платном ремонте могут оказаться несколько выше, чем если бы Вы покупали запчасти просто так, про запас.
Раз сервер у Вас двухмодульный, если денег на ремонт или техподдержку не найдётся, то можно попробовать на свой страх и риск отсоединить проблемный модуль и попытаться завести сервер в одномодульном варианте.
Нюансы этого варианта: у Вас заработает только половина сервера и этой мощности Вам может не хватить.
-
07.12.2016 в 22:50 #39550
Oleg
УчастникНе верится что из за проподания электропитания могли выйти из строя процессора.
это точно не процессоры и не память (все не могли отказать одновременнно)
скорее VRM (достаточно чтобы отказал 1 из 3 – и весь CEC уже не будет стартовать) или сервисный процессор
в любом случае, чтобы сконфигурировать деконфигурированные ресурсы проблемного CEC понадобится временный пароль для celogin от поддержки IBM (если мне не изменяет память…)
-
07.12.2016 в 23:43 #39552
-
08.12.2016 в 10:47 #39554
Mihail Belousov
УчастникЗачем гадать, давайте попросим хронологический лог ASMI. Михаил, выложите пожалуйста на обозрение ПОЛНЫЙ лог из ASMI без каких либо купюр. Этим мы точно не отнимет хлеб у IBM…
Выкладываю. Кто знает там есть ротация, что то мало в нем событий.
Вложения:
Вы должны войти для просмотра вложений. -
08.12.2016 в 23:00 #39558
Sever
УчастникСпасибо.
Пытался урывками разобраться и выстроить хронологию, но каша получилась жуткая. Проблемы с деконфигурацией DIMMа памяти и процессора были в ноябре в одном кеке, в декабре же вы уже “лечили” другой блок. В итоге можно только констатировать, что этот сервер точно имеет HW проблемы и подлежит лечению онсайт специалистом. Удаленно давать советы по лечению бессмысленно.
Из логов 🙂 видно, что у вас есть второй аналогичный сервер, на котором сейчас и должно все работать. Так же у вас должен быть и третий сервер с чуть меньшими ресурсами. Если с саппортом IBM и ремонтом дело не выгорит, то переделайте ваш кластер задействовав этот третий сервер, а проблемный пустите на запчасти.
Рекомендую рассмотреть вопрос об апгрейде всего этого хозяйства на базе серверов Power8. Вам вполне хватит ресурсов двух S824 для построения аналогичного кластера. -
09.12.2016 в 13:10 #39560
Mihail Belousov
УчастникРесурсы перетащил в первую очередь. Всем спасибо. Будем пробовать поставить на гарантию, если деньги найдутся.
-
-
АвторСообщения
- Для ответа в этой теме необходимо авторизоваться.