После перезагрузки деактивировались RAM-ы


Главная Форумы POWER Systems AIX/Hardware После перезагрузки деактивировались RAM-ы

В этой теме 5 ответов, 4 участника, последнее обновление  Aybek 4 года/лет, 11 мес. назад.

  • Автор
    Сообщения
  • #17404

    Aybek
    Участник

    Есть power 550 с двумя модулями по одной CPU(2 ядерные) на борту с памяти. На одном модуле 8 линейк и 4 линейки на 2-ром модуле, все линейки по 2 Ги(ddr2). После полной остановки и поднятие сервера деактивировались все линейки на 1-вом модуле. Status System-deconfigured, error Diagnostic (E3) и By association (E8).При попытке в ASM сделать “configured” не увенчался успехом пишет Memory dimm 0: Operation not allowed during current system state. При попытке переткнуть пару линейке на другой модуль система вообще не поднялся.

    1_asm
    Думали модуль вес сгорел но CPU все наместе. Сапорта нет закончилось ваши совет что можно сделать?
    Также в логах ASM
    Platform Event Log — 501C216D
    Created at : 12/11/2012 01:28:48
    Driver Name : fips340/b1112a_0842.340
    Subsystem : Service Processor Firmware
    Event Severity : Predictive Error
    Action Flags : Report to Operating System
    Service Action Required
    HMC Call Home
    Action Status : Reported to Opr Sys

    Primary System Reference Code

    Reference Code : B181410C
    Hex Words 2 — 5 : 030030F0 28A30710 C13920FF 400000FF
    Hex Words 6 — 9 : 00000001 00000001 00000001 00000002

    Maintenance Procedure Required
    Priority : Mandatory, replace all with this type as a unit
    Procedure Number : FSPSP04

    Maintenance Procedure Required
    Priority : Lowest priority replacement
    Procedure Number : FSPSP06

    Platform Event Log — 501C205F
    Created at : 12/10/2012 23:59:20
    Driver Name : fips340/b1112a_0842.340
    Subsystem : CEC Hardware Subsystem
    Event Severity : Predictive Error
    Action Flags : Report to Operating System
    Service Action Required
    HMC Call Home
    Action Status : Reported to Opr Sys

    Primary System Reference Code

    Reference Code : B150B716
    Hex Words 2 — 5 : 020130F0 28A30B10 C10091B4 000000FF
    Hex Words 6 — 9 : 00000000 00000058 00F00027 501C205B

    Platform Event Log — 501C205E
    Created at : 12/10/2012 23:59:19
    Driver Name : fips340/b1112a_0842.340
    Subsystem : Memory DIMM
    Event Severity : Predictive Error
    Action Flags : Report to Operating System
    Service Action Required
    HMC Call Home
    Action Status : Reported to Opr Sys

    Primary System Reference Code

    Reference Code : B123E504
    Hex Words 2 — 5 : 020130F0 28A30410 C10090B4 010000FF
    Hex Words 6 — 9 : 00812B42 00000021 0BBB000C 00000000

    Normal Hardware FRU
    Priority : Mandatory, replace all with this type as a unit
    Location Code : U78A0.001.DNWH585-P1-C14-C2
    Part Number : 77P6499
    CCIN : 31AB
    Serial Number :
    MFG Replacement Unit Id : 0x0081040C
    Priority : Mandatory, replace all with this type as a unit

  • #17405

    Gremlin
    Участник

    Интересно, что можно сделать, если железо ломается? Наверно звонить в саппорт и чинить.
    У вас с большой вероятностью вышел из строя один модуль памяти и его придётся менять. Точный ответ вам даст ИБМ, правда денег заломит…

    Можно попробовать ещё некоторые действия, но без гарантии результата.
    Сервер ваш на Power6, так что можете в ASMI сделать пароль для celogin1, залогиниться с ним и сделать операцию Clear deconfiguration errors. Но она мало поможет, если модуль памяти действительно сломался, после включения опять вылезет.
    Также можно попробовать микрокод обновить, если он вдруг совсем древний. Иногда пороги срабатывания числа ошибок меняются, так что может теоретически повезти. Но Clear deconfiguration errors после этого всё равно сделать придётся.

  • #17406

    Sever
    Участник

    Замените одну планку
    [code]Priority : Mandatory, replace all with this type as a unit
    Location Code : U78A0.001.DNWH585-P1-C14-C2
    Part Number : 77P6499
    CCIN : 31AB
    Serial Number :
    MFG Replacement Unit Id : 0x0081040C
    Priority : Mandatory, replace all with this type as a unit[/code]

    Если замены нет, то работайте на оставшихся ресурсах

  • #17407

    Michael
    Участник

    Я бы для начала убрал две подозрительные планки С14-С1 и С14-С2, остальные расставил бы в соответствии с правилами установки модулей (они обычно приклеены на верхней крышке сервера) и попробовал поднять сервер.

    Если поднимется без ошибок и деактиваций, тогда уж обновление микрокода и попытки поставить планки обратно…

  • #17419

    Sever
    Участник

    Part Number : 77P6499
    Стоит копейки.

  • #17475

    Aybek
    Участник

    Благодарю всем кто отозвался. Да действительно вышла из строя 2 планки. Убрали эти 2 планки но проблема не решилось. Посмотрели правилу установки модулей который на крышке оказалось что можно заполнить весь модуль те 8 линеек или 4 линеек или 2, а у нас после как убрали 2 планок которые вышли из строя обшей количество было 6. Убрали ещё 2 линеек рабочих поднялся. Да очень странно что из-за 2 линеек вылетает весь модуль.

Для ответа в этой теме необходимо авторизоваться.