revive disk on OpenPower 720 (550)


Главная Форумы POWER Systems AIX/Hardware revive disk on OpenPower 720 (550)

В этой теме 20 ответов, 5 участников, последнее обновление  Pavel Alexei 7 года/лет, 11 мес. назад.

  • Автор
    Сообщения
  • #8333

    Pavel Alexei
    Участник

    У клиента сильно больно упал сервер OpenPower 720, по железу это p550.
    Вылез SRC которого в списке нету B181Fb53. Там не стали долго разбиратся и польностью сервер пересобрали. Ошибка исчезла, но сервер не перестал видеть диски.
    Уже потом он попал ко мне.
    Оказалость, что по причине проблем с прошивкой, не смог изолировать проблему с DIMM и не вырубил пару дохлому DIMM. Где-то нашел описание, на этот b181fb53. После того как его пересобрали, и запустили, он таки определил пару дохлому и вырубил оба.
    Но проблема уже с диками. В системе 2 диска в зеркале на Raid ennablement card.
    Загрузились в Diagnostic CD и management RAID показал, что RAID в degrade, один из дисков в failed, другой Active, но что-то типа “readonly”, точно не помню как. В списке error было про в cache есть данные для дисков, которых нет. Возможно с пересборкой намудрили. Сделали reclaim cache и все стало на первый взгляд хорошо, сервер начал загружаться, но остановился на том, что booter (какой специфический от suse для power) не видит kernel.
    Загрузились в Recovery mode и поняли, что система на видит /dev/sda3, где лежит / (root), по причине сбоя чтения диска.
    Запустили с Diagnostic CD проверку дисков. Осказалось, что тот, что система “прописала” как дохлый весь целый, а вот тот что active, таки на самом деле дохлый.
    Вопрос – как поменять статус диску из Failed в Active? на старых IBM Raid для PC, была ДОС утилита для этого – ipsend. На некоторых новых это можно сделать их GUI RAID манагер.
    А тут такое можно. Вроде как “перерыли” Diagnostic CD и но такого не нашли.
    P.S. Сдох загрузочный диск. Так что OS-а там нету. Есть только Diagnostic CD.

  • #8338

    Oldnick
    Участник

    может нужен какой-нибудь более продвинутый Диагностик СД последней версии?
    или “AIX Live CD” 🙂

    HDD диски пробовали заменять? типа, все убить, и проинсталлировать заново, как кардинальный способ?

  • #8339

    Pavel Alexei
    Участник

    Диск последний
    https://www14.software.ibm.com/webapp/set2/sas/f/diags/download/home.html
    насчет AIX live – хз. С linux on x86 опыт есть, с AS/400 (iSeries) на power тоже, но AIX на p-series совсем малость.
    Убить можно, без проблем, но заказчик просит, если можно оставить данные.
    Что-то ему оттуда надо.

  • #8340

    Michael
    Участник

    Можно попробовать “пошевелить” диски – это раз. Т. е. вытащить-вставить, есть шанс, что после этого система правильно разберётся с дисками.

    Второй вариант – вытащить только дохлый диск.

  • #8343

    Pavel Alexei
    Участник

    Вынимали, меняли местами, оставили только тот, что система считает дохлым.
    Ны помогло.
    По ходу “вылавливали” дохлую память. Подключились через HMC порт Service process-ор. В списке decommited memory указывалось что есть дохлый DIMM, который обрублен вместе с его парой. Но там фигуриет какой-то непонятный номер bank-и, найти его реально на процессорной плате смогли только методом тыка.
    Теперь все хорощо с памятью, но вернулись к тому, с чего началось – B181FB53 с рекомендацией заменить обе процессорные платы. Попытался запустится только на 1 карте. Любые комбинации, только первая, только вторая, менять местами – ничего. Попытка запуска останавливается где-то в начале, посколько питание на кулера и винты даже не подается. Проскакивают какие-то SCR, но все останавливается на 11001510. Но в логах SPM тоже ничего, кроме про power loss.
    Вернул обе карты на место, имеем уже и B181FB53 и B181FB54.
    Что может означать абревиатуры RDT и EST?
    http://publib.boulder.ibm.com/infocenter/powersys/v3r1m5/topic/ipha6_p5/b1xxa.htm
    смотрю что есть какая-то “логика”
    B114FB53 Wiretest has detected an EST error
    B150FB53 Wiretest has detected an EST error
    B150FB54 RDT has detected a hardware error
    B181FB54 RDT has detected a hardware error

  • #8344

    Sever
    Участник

    Прочистите все логи в ASMI.
    Повторите попытку включения.
    Выложите свежие логи сюда (копипастом).
    Аналогично выложите конфигурацию сервера и деконфигурированные элементы, если таковые имеются.

    ЗЫ 11001510 – это отсутствие входного силового питания :laugh:

  • #8357

    ras22
    Участник

    Такие сиптомы могут быть у проблемы, исправляемой инженерным изменением IBM ECA842, под которое попадает эта машина.
    Проверьте, стоят ли на процессорных картах пластиковые “вилки” из этого ECA.
    Вот эти процессорные карты попадают под ЕСА842
    FC1960–CCIN 26F0– 1.5 1way– 10N6458– 80P5737 <<720
    FC1943–CCIN 523D– 1.5 2way– 10N6461– 80P6315 <<720
    FC1961–CCIN 523D– 1.5 2way– 10N6461– 80P6315 <<720
    FC5262–CCIN 26F1– 1.65 2way– 10N6843– 80P5231 <<720
    FC1944–CCIN 26F1– 1.65 2way– 10N6843– 80P5231 <<720

    Ну и конечно нужен список деконфигурированных устройств.

  • #8377

    Pavel Alexei
    Участник

    Похоже что этой вилки в нем нету.
    Фото конечно отстой, но разглядеть можно. Смотри в приложений. Там же в архиве и логи

    Интересно, почему не получается запустить только на 1 процессорной карте?
    Попытка запустить только с одной картой останавливается с SRC 11001511 на панели и с 2-мя ошибками в логах (видно из ASMI): 11001511 и B181201B.
    Оба, я так понимаю, не имеют отношения к тому, что я попытался запустить сервер только с одной процессорной картой.

  • #8379

    Pavel Alexei
    Участник

    не получилось файл прикрепить с ходу.
    [file name=file1.zip size=208715]https://www.aixportal.ru/media/kunena/attachments/legacy/files/file1.zip[/file]

    Attachments:
  • #8380

    Pavel Alexei
    Участник

    Возвращаясь к B181FB53.
    не всегда в нее “влетаешь”. После ряда экспериментов дошло, что при boot speed Fast точно проскакивает загрузка нормально. При Slow speed уже как получится. Чаще всего получим, но вот сейчас хотел сохранить лог с ней, уже 3-ий раз нормально загружается. С утра и в пятницу почти всегда останавливалось.
    Поискал в инете про нее, нашел только это
    http://support.bull.com/ols/product/platforms/escala/firmware/files/squadron/01SF240_261_201_BP240_197_GA7_SP3/01SF240_261_201.html
    Improved FRU isolation for error B181FB53 Added DIMM replacement procedure.
    Но у меня уже SF230, а тут описано про fixes для SF220.
    На всякий случай решил сделать обновление прошивки.
    скачал СД
    http://www14.software.ibm.com/webapp/set2/firmware/lgjsn?mode=10&page=cdrom.html
    загрущился в Diagnostic CD и выбрал обновление прошивки, но получил отлуп
    This partition does not have the authority to perform the requested function. Verify that this partition has service authority. If the problem persists after granting the partition service authority, then contact your service support structure.
    почитал
    http://publib.boulder.ibm.com/infocenter/powersys/v3r1m5/topic/ipha5_p5/previous_hmc.htm
    и поменял firmware policy на OS.
    перезагрузился и опять болт.
    Судя по
    http://www.ibm.com/developerworks/wikis/display/linuxp/p5+system+firmware+upgrade
    систему когда-то конфигурировали через HMC, перед тем как отдать клиенту. Сделали 1 LDAR которому все отдали, но доступ на обновление FW не дали.
    На панели у меня HMC=0, а если бы HMC по жизни не было, вроде как HMC= должно быть.
    Есть идеи как обновить прошивку?
    Я пока вижу только снести все на фабричные установки, через ASMI, но не будет ли проблем, имея ввиду, что у меня ОС Linux? запустится он без LDAR?

  • #8381

    Sever
    Участник

    Из логов видно следующее:
    Проблема с одним из блоков питания.
    На фотке диммы памяти видно плохо, но из того, что видно – стоят они “неправильно”.

    Рекомендации такие – прекратите эксперименты, которые вы делаете “методом тыка”. Откройте инфоцентр и почитайте правила расположения планок памяти для вашего сервера. Разберитесь с блоком питания. По коду это дальний от центра сервера блок…

    /

  • #8382

    Pavel Alexei
    Участник

    Обижаете.
    Я уже давно привык сначало читать, а потом делать. 25 лет стажа возни компьютерной хренинью.
    Во первых память, как это не выглядит странно, но стоит она правильно. Может картинка сильно смазано. Я фотографировал, чтоб показать, что нету там “вилок”. Нет ли случаем фотки этих вилок, так как по P/N 46K6559 я не нашел нигде описания этих STANCHIONS.
    Там сайчас стоят 2 планки, в 4 и 5 слоте.
    Пары ставяться в сл. порядке 1+8, 2+7, 3+6, 4+5
    http://publib.boulder.ibm.com/infocenter/powersys/v3r1m5/topic/iphan_p5/hwip4installmemory.htm
    “Правильность” подтвержается еще и тем, система съела память без ошибок.

    Что касается SRC, такие вот SRC и вылезают если попытатся запустить его только с 1 процессорным модулем. Я хотел изолировать проблему и вытащил все что можно по максимуму, думал запустить только на 1 процессорном модуле. Не получается.
    И с блоком питания тоже все нормально. Если вернуть оба процессорным модуля, то все заводится, иногда 🙂
    Иногда, в сысле, что можем получить тот самый B181FB53.
    Прочитайте еще раз внимательно мои письма.

  • #8384

    Pavel Alexei
    Участник

    Подскажите как обойти “This partition does not have the authority to perform the requested function” и обновить прошивку без HMC.

    И как сделать имея только Diagnostic CD сделать revive диску.
    В доках по диагностике power серверов
    http://www-01.ibm.com/support/docview.wss?uid=pub1sa38050923
    это можно сделать через
    1. Login as root ( if not already root).
    2. Type smit pdam.
    3. Select Revive a failed Drive in a PCI SCSI Disk Array.
    как попасть в smit на Diagnistic CD я не нашел.

  • #8385

    Sever
    Участник

    pavelalex писал(а):

    Обижаете.
    Я уже давно привык сначало читать, а потом делать.
    ….
    Там сайчас стоят 2 планки, в 4 и 5 слоте.
    Пары ставяться в сл. порядке 1+8, 2+7, 3+6, 4+5
    ….
    Прочитайте еще раз внимательно мои письма.

    Прочитал. Прочтите и вы то, что вы сами написали, и переставьте планки в первый и восьмой слоты.

  • #8391

    ras22
    Участник

    плохо сфотографировано, но вилок я не вижу.

    По поводу запуска 550-ой машины с одной процессорной картой:

    On the 9113-550, 9133-55A, and 9124-720, the processor assembly
    filler must be installed in the secondary processor card slot
    (Un-P1-C8) when only one processor card (1-way or 2-way) is
    installed in the primary processor card slot (Un-P1-C9). The
    FRU number for the filler is 39J1228.

    An attempt to boot the system with nothing in the secondary
    processor card slot will result in power-related errors that
    will not allow the system to boot. In the ASMI event log, you
    may see B1551360, 11001511, and B181201B in that order. On the
    control panel, you may see progress code C1922000 before SRC
    11001511 appears.

  • #8399

    Pavel Alexei
    Участник

    За информацию про запуск с одной процессорной картой ОГРОМНОЕ СПАСИБО!
    Я пытался найти что-то такое, но не смог. Откуда инфа, если не секрет.

    А насчет вилок, что они из себя представляют? Прочитал
    http://www-05.ibm.com/services/ecalib/doc/9113-842.txt
    но так ничего и не понял. Радиатор приклеплен очень жестко, на 4 штыря, которые с противоложной стороны платы удерживаются пластиной. Какой тут может быть “torque of the heat sink assembly”.
    Пытался найти что-то в инете про 46K6559, но кроме предложений по продаже ничего нет.

    Что касатся revive disk, я сильно обломился. Перечитал еще кучу инфы, то на что я надеялся относится к PCI 4-Channel Ultra3 SCSI RAID Adapter. там есть опция revive disk.
    Для PCI-X SCSI RAID (а enablement raid card тоже к этому классу относится) workaround только удалить array, отформатировать и создать заново 🙁 И сидит же где-то какой-то байт на винте, который за это отвечает.
    http://publib.boulder.ibm.com/infocenter/pseries/v5r3/topic/com.ibm.pseries.doc/hardware_docs/scsipciadapters.htm

  • #8406

    ras22
    Участник

    pavelalex писал(а):

    А насчет вилок, что они из себя представляют? Прочитал
    http://www-05.ibm.com/services/ecalib/doc/9113-842.txt
    но так ничего и не понял. Радиатор приклеплен очень жестко, на 4 штыря, которые с противоложной стороны платы удерживаются пластиной. Какой тут может быть “torque of the heat sink assembly”.
    Пытался найти что-то в инете про 46K6559, но кроме предложений по продаже ничего нет.

    Как раз проблема в этих 4-х штырях – они иногда не выдерживают, поэтому вилка вставляется между радиатором и платой. Потом с обратной стороны ослабляется нагрузка, чуть-чуть откручивая крепление.

  • #8462

    Pavel Alexei
    Участник

    Случаем с B150F22A не сталкивались?
    Удалось таки загрузиться и обновить прошивку. Была SF230_145, сейчас SF240_382.
    Уже ругается B150F22A и B150FD00. Но опять же нестабильно. Один раз удалось таки загрузиться с новой прошивкой.
    Описание на сайте для обоих SRC замудренное. В описаниях fixes, эта ошибка часто возникает как пофиксенная.
    В инете тоже много “плача”, но пока из решений было только замена процессорных карт или вообще всего железа полностью.
    [file name=boot7_events.doc size=38400]https://www.aixportal.ru/media/kunena/attachments/legacy/files/boot7_events.doc[/file]

    Attachments:
  • #8464

    Sever
    Участник

    https://www.aixportal.ru/component/option,com_fireboard/Itemid,137/func,view/catid,10/id,4060/#4060

    Mandatory, replace all with this type as a unit
    FSPSP01
    A part vital to system function has been deconfigured. Review the system error logs for errors that call out parts relevant to each reason code.

    B150FD00 – GARD Actions were performed on all items that were marked to be gard’d by the system that are not resource recoverable

  • #8467

    ras22
    Участник

    B150F22A – это тоже симптом ECA842 – нужно поставить вилки обязательно, если они еще не установлены. В противном случае можно окончательно угробить процессорные карты.
    Вот:
    Symptom
    MT 9406-550, 9113-550, or 9124-720 fails with one or more of the
    following:
    – SRC B114xxxx *and/or*
    – SRC B1xxF22A with additional word 6 value of 0000F237 or
    0000F230 *and/or*
    – SRC B110F1xx

    word 6 в вашем случае – F230.

    И посмотрите (и напишите) список деконфигурированных устройств из ASMI.

  • #8473

    Pavel Alexei
    Участник

    Thx, но уже слишком поздно.
    Решил я таки разобраться что это за вилки.
    Вот как он выглядит
    http://jochen.dyn.hin.de/pictures/cpu-card/ECA842/Stanchion.JPG
    А вот от чего оно должно спасти
    http://jochen.dyn.hin.de/pictures/cpu-card/01210006.JPG
    Посмотрите внимательно на ножки проца. Это фото не мое, нашел в инете. У меня ситуация на одном из процов еще хуже чем тут.
    Похоже что проц припаян сразу на плату, и под большим давлением крепежа радиатора у него ножки могут перегнутся.
    Думаю выпрямить уже не получится.
    так что, все, кто попадает под ECA 842 – не тормозите
    http://www-05.ibm.com/services/ecalib/doc/9113-842.txt
    В моем случе видимо где-то либо уже плохо контачит, либо уже замыкает.
    Запускается непонятно по какой логике. Deconfigured ничего нет.
    По форумам пишут, что многим от B150F22A помогает замена процессорных карт, или только одной.

    P.S.
    Google кое как попытался перевести, но в общем понятно
    http://translate.google.com/translate?js=y&prev=_t&hl=en&ie=UTF-8&layout=1&eotf=1&u=http%3A%2F%2Fnewsgroups.derkeiler.com%2FArchive%2FDe%2Fde.sci.electronics%2F2009-02%2Fmsg01244.html&sl=de&tl=en

Для ответа в этой теме необходимо авторизоваться.