Проблема с запуском после замены модулей RAM


Главная Форумы POWER Systems AIX/Hardware Проблема с запуском после замены модулей RAM

В этой теме 35 ответов, 3 участника, последнее обновление  Sever 8 года/лет, 3 мес. назад.

  • Автор
    Сообщения
  • #4469

    Доброго!
    Есть машинка 9113-550. В нее была заказана память, 4 кита Kingston KTM-P615/8G (по конфигуратору Kingston, совместимая с указанной моделью)
    http://www.ec.kingston.com/ecom/configurator_new/modelsinfo.asp?SysID=19573&mfr=IBM&model=eServer+pSeries+p5+Model+550+%289113&search_type=&root=us&LinkBack=http%3A%2F%2Fwww.kingston.com&Sys=19573-IBM-eServer+pSeries+p5+Model+550+%289113-550%29&distributor=0&submit1=Search
    После замены памяти, машинка не стартует с кодом B150F7BB, в ASMI запись:
    503D2EB1 2009-07-28 08:21:15 CEC Hardware Subsystem Unrecoverable Error B150F7BB
    Поиск особо ничего не дал, расшифровку кода тоже не удалось найти за исключением ссылки на IBM:
    http://publib.boulder.ibm.com/infocenter/ts7700ic/v1r0/index.jsp?topic=/com.ibm.storage.ts7740.service.doc/ts7740_b1xxsvcprcfrmwrrefcddscrp_251kfv.html
    B1501000 to B150FFFF System unit hardware event or error reported by the service processor.
    Машинка не на поддержке и соотв. не на гарантии.

    Ну и вот тут, но похоже на китайском
    http://www.loveunix.net/thread-56077-1-1.html

    подскажите, чем можно помочь.
    спасибо

  • #4474

    Michael
    Участник

    Глупые вопросы позадаю: в ASMI есть еще пунктик memory deconfiguration, он что-нибудь показывает?
    Память сразу всю поставили? По частям не пробовали? И еще: судя по сообщению, имевшуюся в 550-м память всю вытащили? Ставили, естественно, согласно схемам установки модулей памяти?

  • #4475

    такс, попробуем …
    в memory deconfiguration:

    Total system memory: 32768 MB

    Total system configured memory: 32768 MB

    Total system deconfigured memory: 0 MB
    Processing unit Total memory Configured Deconfigured
    0 32768 MB 32768 MB 0 MB

    Processing unit: 0
    Memory bank Location code Size State Error type Change settings
    0 U787B.001.DNW48A9-P1-C9-C1
    U787B.001.DNW48A9-P1-C9-C8
    2048 MB Configured None (0) ?
    1 U787B.001.DNW48A9-P1-C9-C2
    U787B.001.DNW48A9-P1-C9-C7
    2048 MB Configured None (0) ?
    2 U787B.001.DNW48A9-P1-C9-C1
    U787B.001.DNW48A9-P1-C9-C8
    2048 MB Configured None (0) ?
    3 U787B.001.DNW48A9-P1-C9-C2
    U787B.001.DNW48A9-P1-C9-C7
    2048 MB Configured None (0) ?
    4 U787B.001.DNW48A9-P1-C9-C3
    U787B.001.DNW48A9-P1-C9-C6
    2048 MB Configured None (0) ?
    5 U787B.001.DNW48A9-P1-C9-C4
    U787B.001.DNW48A9-P1-C9-C5
    2048 MB Configured None (0) ?
    6 U787B.001.DNW48A9-P1-C9-C3
    U787B.001.DNW48A9-P1-C9-C6
    2048 MB Configured None (0) ?
    7 U787B.001.DNW48A9-P1-C9-C4
    U787B.001.DNW48A9-P1-C9-C5
    2048 MB Configured None (0) ?
    8 U787B.001.DNW48A9-P1-C8-C1
    U787B.001.DNW48A9-P1-C8-C8
    2048 MB Configured None (0) ?
    9 U787B.001.DNW48A9-P1-C8-C2
    U787B.001.DNW48A9-P1-C8-C7
    2048 MB Configured None (0) ?
    10 U787B.001.DNW48A9-P1-C8-C1
    U787B.001.DNW48A9-P1-C8-C8
    2048 MB Configured None (0) ?
    11 U787B.001.DNW48A9-P1-C8-C2
    U787B.001.DNW48A9-P1-C8-C7
    2048 MB Configured None (0) ?
    12 U787B.001.DNW48A9-P1-C8-C3
    U787B.001.DNW48A9-P1-C8-C6
    2048 MB Configured None (0) ?
    13 U787B.001.DNW48A9-P1-C8-C4
    U787B.001.DNW48A9-P1-C8-C5
    2048 MB Configured None (0) ?
    14 U787B.001.DNW48A9-P1-C8-C3
    U787B.001.DNW48A9-P1-C8-C6
    2048 MB Configured None (0) ?
    15 U787B.001.DNW48A9-P1-C8-C4
    U787B.001.DNW48A9-P1-C8-C5
    2048 MB Configured None (0) ?

    Unit Unit Type Location code State Error type Change settings
    0 Controller U787B.001.DNW48A9-P1-C9 Configured None (0) ?
    1 Controller U787B.001.DNW48A9-P1-C8 Configured None (0) ?
    2 Buffer U787B.001.DNW48A9-P1-C9 Configured None (0) ?
    3 Buffer U787B.001.DNW48A9-P1-C9 Configured None (0) ?
    4 Buffer U787B.001.DNW48A9-P1-C8 Configured None (0) ?
    5 Buffer U787B.001.DNW48A9-P1-C8 Configured None (0) ?

    Память поставили всю сразу, соотв. старую всю вытащили. По частям пока не пробовали
    Кас. схемы установки … забили все 16 слотов, поэтому память ставилась подряд. Возможно я в этом не прав

  • #4479

    Michael
    Участник

    Кстати, есть один весьма важный момент, который в нас вбивали На курсах в УЦ IBM (не будем показывать пальцем, кто именно 😉 ): «При возникновении проблем в первую очередь обновляйте микрокоды!»
    И еще: даже если Ваше оборудование не на гарантии, Вы всё равно можете отправить заявку в СЦ IBM и они её примут и Вам перезвонит инженер. Но всё, что ему разрешено сделать бесплатно — это 15 минут поговорить с Вами по телефону и дать устные рекомендации.
    Кстати, на 99,99% рекомендации будут таковы: «Обновите микрокоды на сервере!» 😀

  • #4480

    фирмварь я бы не сказал что старая SF240_358

  • #4482

    коли уж зашел вопрос про обновление фирмвари, как это конкретно понимать:

    Firmware and HMC

    Special Instructions File

    CAUTION:

    Updating to this service pack level can not be performed concurrently and will have to be performed disruptively during a scheduled window.
    Special Instructions for SF240_382

    This level of firmware is DISRUPTIVE.

  • #4483

    Michael
    Участник

    Судя по логу ASM у Вас вся память на «железном» уровне нормально сконфигурировалась…
    Не пробовали еще раз попытаться поднять сервер, только в режиме slow boot? Может быть, проблема в том, что Вы память-то заменили, но сервер оказался не готов этому и не смог быстро освоиться?

    Что касается обновления микрокода, то насколько я почитал дальше, там обязательно надо сделать power off серверу, т. е. невозможно обновить микрокод, не выключая сервер…

  • #4486

    Sever
    Участник

    mih писал(а):

    Судя по логу ASM у Вас вся память на «железном» уровне нормально сконфигурировалась…

    Скорее всего старую память вернули назад. На новых диммах сервер вообще не поднялся.
    Для экспериримента надо на одном процессорном блоке оставить старую память, а новую запихать во второй.
    Испанец: Прошивку менять не надо.
    Какие CCIN и p/n на старой памяти и какие опознавательные аналоги на новой?

  • #4487

    Ранее стояло 8x1Gb, соотв. данные по системе с новой памятью

  • #4488

    Michael
    Участник

    Поскольку память дергать будем не мы, то почему бы и не поэкспериментировать по ЦУ sever-а? 😀
    Но только если slow boot не поможет.

  • #4492

    Sever
    Участник

    B150F7BB очень похоже …

    CEC Chip Initialization (CINI)

    ‘F7A0’x through ‘F7FF’x

    The CINI component initializes the chips in the system unit, based on the system configuration. These actions include configuring system memory and address ranges, chip modes, and communicating from chip to chip. CINI also determines and sets the processor and bus frequencies.

    Какие CCIN и p/n на старой памяти и какие опознавательные аналоги на новой?

  • #4494

    Старая память:
    Hynix PC2100R-25330 1GbDDR 266MHz CL2.5 ECC HYMD512E726B4U-H AA-A
    FRU: 00P5769 EC: H12714

    Новая память:
    Kingston KTM-P615/8G kit of 4 2.5V
    BVMQ3670922, 9965367-004.A00LF

    Пробовал оставить на первой плате старую, на второй новую — результата не дало.
    После того как вернул все назад (8 планок старой), все соотв. заработало

    Еще одно наблюдение, если ставить новую память, то все планки идут по отдельности (в memory deconfiguration), если ставим старые — то по две:

    Memory bank Location code Size State Error type Change settings
    0 U787B.001.DNW48A9-P1-C9-C1
    U787B.001.DNW48A9-P1-C9-C8
    2048 MB Configured None (0) ?
    1 U787B.001.DNW48A9-P1-C9-C3
    U787B.001.DNW48A9-P1-C9-C6
    2048 MB Configured None (0) ?
    2 U787B.001.DNW48A9-P1-C8-C1
    U787B.001.DNW48A9-P1-C8-C8
    2048 MB Configured None (0) ?
    3 U787B.001.DNW48A9-P1-C8-C3
    U787B.001.DNW48A9-P1-C8-C6
    2048 MB Configured None (0) ?

    еще момент, по документации, по установке памяти идет:

    Two processors, memory added in quads.
    Memory should be balanced on each processor card.

    * Plug the first quad of memory modules into memory module slots P1-C8-C1, P1-C8-C3, P1-C8-C6, and P1-C8-C8 on each processor card, or slots P1-C9-C1, P1-C9-C3, P1-C9-C6, and P1-C9-C8 on each processor card.
    * Plug the second quad of memory modules into memory module slots P1-C8-C2, P1-C8-C4, P1-C8-C5, and P1-C8-C7 on each processor card, or slots P1-C9-C2, P1-C9-C4, P1-C9-C5, and P1-C9-C7 on each processor card.

    Означает ли это, что когда ставим память 4-ками, то объем и количество модулей на каждой процессорной плате должно быть идентично, и второе — на каждой плате должно стоять по 2 4-ке, т.е. забиты все банки?

    при установке, в 1-ю плату 8 планок новой памяти и во вторую — 4-х старой получаем тот же код ошибки и соотв. такую конфигурацию памяти:

    Processing unit: 0
    Memory bank Location code Size State Error type Change settings
    0 U787B.001.DNW48A9-P1-C9-C1
    U787B.001.DNW48A9-P1-C9-C8
    2048 MB Configured None (0) ?
    1 U787B.001.DNW48A9-P1-C9-C2
    U787B.001.DNW48A9-P1-C9-C7
    2048 MB Configured None (0) ?
    2 U787B.001.DNW48A9-P1-C9-C1
    U787B.001.DNW48A9-P1-C9-C8
    2048 MB Configured None (0) ?
    3 U787B.001.DNW48A9-P1-C9-C2
    U787B.001.DNW48A9-P1-C9-C7
    2048 MB Configured None (0) ?
    4 U787B.001.DNW48A9-P1-C9-C3
    U787B.001.DNW48A9-P1-C9-C6
    2048 MB Configured None (0) ?
    5 U787B.001.DNW48A9-P1-C9-C4
    U787B.001.DNW48A9-P1-C9-C5
    2048 MB Configured None (0) ?
    6 U787B.001.DNW48A9-P1-C9-C3
    U787B.001.DNW48A9-P1-C9-C6
    2048 MB Configured None (0) ?
    7 U787B.001.DNW48A9-P1-C9-C4
    U787B.001.DNW48A9-P1-C9-C5
    2048 MB Configured None (0) ?
    8 U787B.001.DNW48A9-P1-C8-C1
    U787B.001.DNW48A9-P1-C8-C8
    2048 MB Configured None (0) ?
    9 U787B.001.DNW48A9-P1-C8-C3
    U787B.001.DNW48A9-P1-C8-C6
    2048 MB Configured None (0) ?

  • #4495

    Michael
    Участник

    Думаю, что «Вы идёте верной дорогой, товарищ» 😀
    Только насчёт того, что должны быть забиты все слоты памяти — вряд ли верно. Написано же на чистом инглише, что если первая 4-ка модулей на первой плате забивается в банки С1-3-6-8, то и на второй надо вбивать в банки С1-3-6-8. А если надо ставить уже вторую 4-ку модулей, то это в банки С2-4-5-7. Только и всего.
    Вот такую операцию как замену старой памяти на новую не пробовали? Т. е. старые планки памяти вынимаем, а новые ставим на их место и ничего больше…
    Для начала: как они увидятся в ASM (Memory deconfiguration)? Так же парно, как старые модули или нет?

    Написано же:

    Memory should be balanced on each processor card.

    У Вас объём памяти на 1-й плате должен быть = объёму памяти на 2-й плате, «я так думаю» (С) «Мимино»

  • #4496

    Sever
    Участник

    ispanets писал(а):

    Новая память:
    Kingston KTM-P615/8G kit of 4 2.5V
    BVMQ3670922, 9965367-004.A00LF

    Не знаю такой, нет ни одного термина имеющего отношение к 550ым серверам.

    Пробовал оставить на первой плате старую, на второй новую — результата не дало.
    После того как вернул все назад (8 планок старой), все соотв. заработало

    Вывод : новая память не подходит для этого сервера.

    Еще одно наблюдение, если ставить новую память, то все планки идут по отдельности (в memory deconfiguration), если ставим старые — то по две:

    Memory bank Location code Size State Error type Change settings
    0 U787B.001.DNW48A9-P1-C9-C1
    U787B.001.DNW48A9-P1-C9-C8
    2048 MB Configured None (0) ?
    1 U787B.001.DNW48A9-P1-C9-C3
    U787B.001.DNW48A9-P1-C9-C6
    2048 MB Configured None (0) ?
    2 U787B.001.DNW48A9-P1-C8-C1
    U787B.001.DNW48A9-P1-C8-C8
    2048 MB Configured None (0) ?
    3 U787B.001.DNW48A9-P1-C8-C3
    U787B.001.DNW48A9-P1-C8-C6
    2048 MB Configured None (0) ?

    В ASMI в этом разделе так отображаются видимые диммы с их принадлежностью к парам — если видно 4 димма, то перечисляются соответствующие пары слотов
    нулевой димм — пара 1+8
    первый — 3+6
    второй — 1+8
    третий — 3+6

    еще момент, по документации, по установке памяти идет:

    Two processors, memory added in quads.
    Memory should be balanced on each processor card.

    * Plug the first quad of memory modules into memory module slots P1-C8-C1, P1-C8-C3, P1-C8-C6, and P1-C8-C8 on each processor card, or slots P1-C9-C1, P1-C9-C3, P1-C9-C6, and P1-C9-C8 on each processor card.
    * Plug the second quad of memory modules into memory module slots P1-C8-C2, P1-C8-C4, P1-C8-C5, and P1-C8-C7 on each processor card, or slots P1-C9-C2, P1-C9-C4, P1-C9-C5, and P1-C9-C7 on each processor card.

    Память на модуль добавляется четверками димов одинакового номинала
    Если ставишь первые четыре димма, то ставишь их как указано выше в 1,3,6,8 слоты
    Если ставишь еще четыре, то во 2,4,5,7.

    Означает ли это, что когда ставим память 4-ками, то объем и количество модулей на каждой процессорной плате должно быть идентично, и второе — на каждой плате должно стоять по 2 4-ке, т.е. забиты все банки?

    Недопускается полное отсутствие рабочих диммов на модуле.
    Если два модуля и 8 диммов, то четыре ставим на первый модуль и еще четыре на второй.
    Наборы диммов на модулях могут отличаться по номиналу.
    Если есть 8 диммов одного номинала и 8 другого, то можно
    -одним номиналом забить первый модуль, а другим второй
    -смешать на модулях номиналы группами по четыре штуки.

  • #4497

    Sever
    Участник

    Для примера память, которая стоит у меня на 550ой (диммы по 2 и 4Гб):

    Текст . . . . . . . . . . . : Карта оперативной памяти 2048Мб
    Тип-модель . . . . . . . . . : 30AA
    Серийный номер . . . . . . . : YH12BK79L0HM
    Код компонента . . . . . . . : 12R9259

    Распол. : U787B.001.0000000-P1-C8-C1

    Текст . . . . . . . . . . . : Карта оперативной памяти 4096Мб
    Тип-модель . . . . . . . . . : 30B3
    Серийный номер . . . . . . . : YH10BK6C907K
    Код компонента . . . . . . . : 12R9278

    Распол. : U787B.001.0000000-P1-C9-C2

    Кстати память тоже нестандартная для 550. Родные 1Гб диммы были изъяты, а на их иместо поставили память с 570ой машины.

  • #4498

    кас. того что нет упоминаний,

    http://www.ec.kingston.com/ecom/configurator_new/modelsinfo.asp?SysID=19573&mfr=IBM&model=eServer+pSeries+p5+Model+550+%289113&search_type=&root=us&LinkBack=http%3A%2F%2Fwww.kingston.com&Sys=19573-IBM-eServer+pSeries+p5+Model+550+%289113-550%29&distributor=0&submit1=Search
    это ссылка на конфигуратор Kingston

    ну и гугль собственно
    http://www.google.ru/search?hl=ru&q=ktm-p615+9113-550&btnG=%D0%9F%D0%BE%D0%B8%D1%81%D0%BA+%D0%B2+Google&lr=&aq=f&oq=

    поставил планки на место старых, соотв. получилось 16Гб, конфиг в asmi:
    Memory bank Location code Size State Error type Change settings
    0 U787B.001.DNW48A9-P1-C9-C1
    U787B.001.DNW48A9-P1-C9-C8
    2048 MB Configured None (0) ?
    1 U787B.001.DNW48A9-P1-C9-C1
    U787B.001.DNW48A9-P1-C9-C8
    2048 MB Configured None (0) ?
    2 U787B.001.DNW48A9-P1-C9-C3
    U787B.001.DNW48A9-P1-C9-C6
    2048 MB Configured None (0) ?
    3 U787B.001.DNW48A9-P1-C9-C3
    U787B.001.DNW48A9-P1-C9-C6
    2048 MB Configured None (0) ?
    4 U787B.001.DNW48A9-P1-C8-C1
    U787B.001.DNW48A9-P1-C8-C8
    2048 MB Configured None (0) ?
    5 U787B.001.DNW48A9-P1-C8-C1
    U787B.001.DNW48A9-P1-C8-C8
    2048 MB Configured None (0) ?
    6 U787B.001.DNW48A9-P1-C8-C3
    U787B.001.DNW48A9-P1-C8-C6
    2048 MB Configured None (0) ?
    7 U787B.001.DNW48A9-P1-C8-C3
    U787B.001.DNW48A9-P1-C8-C6
    2048 MB Configured None (0) ?

    код ошибки тот же

  • #4499

    Sever
    Участник

    ткнись мышкой в видимый димм и покажи его p/n

  • #4500

    Можно глупый вопрос — а где это? HMC V7R3.4.0

  • #4501

    Sever
    Участник

    ASMI:
    System Information — Vital Product Data — Main Storage Card

  • #4502

    FRU: Main storage card (MS)
    Part number: 00P5773
    Serial number: YL1081321720
    FRU number: 00P5773
    CCIN: 30D5
    RID: 0xd000
    Location code: U787B.001.DNW48A9-P1-C9-C1

  • #4503

    Sever
    Участник

    память вполне подходящая, обязана приниматься системой.

  • #4504

    странно это все очень. просто ни разу еще с kingston так не попадал
    а вот принципиально, расшифровка по всем кодам естьв природе? перерыл 3-х томник pSystem Reference Codes, там такого нет.

    еще момент, если смотреть мануал по установке/замене памяти, то там есть пункт Install a feature using the Hardware Management Console,
    http://publib.boulder.ibm.com/infocenter/systems/scope/hw/index.jsp?topic=/iphan_p5/hmcinstall.htm
    Данная процедура как-то влияет на работу памяти в системе?

  • #4505

    Michael
    Участник

    Насоветовать можно много чего, мы ведь всё-таки родом из страны советов 😀

    Мысли вот какие:
    1. Написать в СЦ IBM, шансы почти нулевые, но «лучше сделать и пожалеть».
    2. Попробовать поставить память через НМС в соответствии с изученной инструкцией.
    3. Аналогичный сервер под рукой есть? Или 570-й? Или какой-нибудь Intel-based, в который можно затолкать такую память и проверить, что она вообще живая? Вдруг какой-то модуль всё-таки попался сбойный?

  • #4506

    есть конечно, еще один один точно такой же, но он боевой 24х7 и на нем экспериментировать совсем нехочется.
    я так представляю, что если бы модуль был битый, то на процессорной плате сверху была бы аварийная индикация.

  • #4507

    Sever
    Участник

    На error лог в ASMI бы взглянуть…

  • #4508

    Michael
    Участник

    Да я тоже так же думаю вообще-то, что в случае битого модуля горел бы восклицательный знак…

    Боевой сервер, я так подозреваю, тоже не на гарантии? А то можно было бы предположить, что и на нём проблемы будут такими же, как на подопытном, ну и соответственно запрос в СЦ — святое дело. 🙂

    Т. е. всё равно можно поразмыслить над запросом в СЦ ИБМ и над добавлением памяти через НМС. Можно еще, если не найдётся других вариантов, подумать над обновлением прошивки до 382-й. Только надо точно удостовериться, что если ничего не получится, то можно будет с 382-й вернуться обратно на имеющуюся 358-ю.

    И, кстати, Вы slow boot пробовали? В последнее время у нас инженеры из СЦ при замене сбойного оборудования на любом сервере начали постоянно практиковать, что первая загрузка после ремонта — обязательно slow.

  • #4510

    asmi error log [file name=asmi_error_log.zip size=21648]http://www.aixportal.ru/media/kunena/attachments/legacy/files/asmi_error_log.zip[/file]

  • #4511

    обновился до 382-й вчера ну и slow boot включил. результатов не дало

  • #4512

    Sever
    Участник

    Логи многое прояснили — там же все написано.
    Система определяет идентичные серийные номера у диммов и «шлет лесом»

    The FRU that is listed has the same serial number as another FRU in the system. Remove all but one of the FRUs that are listed and then perform a slow boot.

    Нужно через ASMI пройтись по всем диммам и проверить (переписать) у кого какой SN.

    Для нормальной загрузки придется изъять клоны…

  • #4514

    Спасибо огромное! Действительно, у 2-х планок из 16 совпадают серийники

  • #4515

    Sever
    Участник

    Придется оставить 12 димов по два гига и 4 в 1 гиг.
    4 двушки будут в резерве.

  • #4519

    Michael
    Участник

    Почему в резерве? А заменить никак?
    В смысле: вернуть модули с совпадающими серийниками поставщику в обмен на модули с уникальными серийниками.

  • #4522

    будем пробовать вернуть один кит, может и получится. тут вопрос конечно времени

  • #4525

    Michael
    Участник

    А чего пробовать? «Вот эти работают, а эти не работают». Можно еще и наглядную демонстрацию провести. 🙂
    Кстати, весьма «удачно» получилось, что модули с одинаковыми серийниками первыми «лезли под руку» и постоянно ставились в сервер. 😀

  • #4526

    планки тащились под заказ с кингстона, в рф найти не удалось. замена может затянуться надолго

  • #4527

    Sever
    Участник

    Явно палёные планки в одной поставке это криминал. Можете попытаться выставить поставщику претензию — пусть высылает повторно заказ.

Для ответа в этой теме необходимо авторизоваться.