P570-9117, ошибка при обращении к второму сервисному процессору?

Главная Форумы POWER Systems AIX/Hardware P570-9117, ошибка при обращении к второму сервисному процессору?

Просмотр 15 веток ответов
  • Автор
    Сообщения
    • #7409
      Vladmir
      Участник

      Добрый день, господа! Начну издалека : )
      Есть сервер Р570, срок техподдержки от ИБМа закончился, на продление пока денег нет.
      После обновления VIOS до 2.1.2.10-FP-22 и AIX до 6.1.4.0 начали возникать ошибки при работе LPAR с дисковым массовом (DS4800) – несколько раз просто зависал один из серверов. Запуск pmcfg по крону показывает ошибки в fcsX, независимо от активного адаптера.
      Меняли адаптеры, перепрошивали, меняли оптические патч-корты и т.п. Открыли кейс на дисковую стойку (на нее еще действует гарантия). Официально по кейсу нам сказали, что все с ней и послали в сторону открытия кейса на сервер. Неофициально порекомендовали обновить system firmware (сейчас уровень SF240_320).
      При попытке сделать Check system readiness из HMC выдает ошибку “HSCF0093E Unable to determine managed system readiness. Error code E302F933.” Описание ошибки: An exception occurred in the getRedundantFspInfoExt() method to the primary service processor when attempting to determine the state of the secondary service processor.
      Problem determination. Reboot the HMC and retry the operation. If the error occurs again, contact your next level of support.
      Сами сервисные процессоры доступны, и из HMC (status – available), и просто пингуются. Поддержки след. уровня нет ( Перезагрузка HMC не помогла.

      Собственно вопрос – что это за зверь и как можно понять, что именно не работает?

      И если кто по дисковой проблеме подскажет – буду благодарен.

    • #7415
      andrewk
      Участник

      неплохо бы еще версию HMC указать.

    • #7425
      Vladmir
      Участник

      Упс, и правда.
      V7R3.4.0.3

    • #7428
      Сергей
      Участник

      сторожовый суппорт посоветовал обновить FW на сервере? хм…

      по сути — сколь соединений показывает lssysconn -r all ?
      если оба SP в состоянии connected, то включен ли c hmc failover?

      и какая именно ошибка идет по СХД?

    • #7430
      Vladmir
      Участник

      ibm@HMC:~> lssysconn -r all
      resource_type=sys,type_model_serial_num=9117-570*,sp=primary,sp_phys_loc=unavailable,ipaddr=10.0.0.251,alt_ipaddr=unavailable,state=Connected
      resource_type=sys,type_model_serial_num=9117-570*,sp=secondary,sp_phys_loc=unavailable,ipaddr=10.0.0.252,alt_ipaddr=unavailable,state=Connected

      Failover – видимо нет, потому как в меню есть пункты FSP-> setup, FSP->initiate, попытка обратиться к которым выдает
      An error occurred while querying the redundant Service Processor information. Try the operation again. If the failure persists, initiate the ‘View HMC Logs’ task for detailed error information. A user with ‘hmcpe’ task role authority will be required.
      В логах ничего.

      Кстати, система сейчас загружена с temporary firmware image. Не могуть быть разные firmware у сервисных процессоров? Может их перепрошили в свое время как-то неудачно…

      Ошибки на СХД:
      ECCE4018 0306001610 T S fcsX SOFTWARE PROGRAM ERROR – каждую ночь в 23:55, при работе pmcfg (X – в зависимости от текущего активного адаптера)
      D5385D18 0306001610 T H hdisk4 ARRAY OPERATION ERROR – иногда, незаметно для LRAR

      E86653C3 0306001610 P H LVDD I/O ERROR DETECTED BY LVM
      DF63A4FE 0306001610 T S vhost1 Virtual SCSI Host Adapter detected an er
      Эти две обычно сопровождаются ошибками на клиентах.

      Первая – малоинформативная, у остальных в расширенном описании – DASD, probable disk,cable,media or adapter failure. При возникновении вторых двух ошибок система переходит автоматически на второй FC адаптер, в нек. случаях – с зависанием Оракла на клиентских LPARах

    • #7433
      Сергей
      Участник

      теоретически могут быть и разные. попробуйте сходить в АСМИ к тому и другому, там будет написано однозначно. с темпорари – это нормально..

      по СХД — а что в ее логе в те же 23:55?

    • #7434
      Vladmir
      Участник

      Date/Time: Wed Mar 31 23:55:13 2010
      Sequence Number: 563945
      Machine Id: 00C0A1504C00
      Node Id: vios
      Class: S
      Type: TEMP
      WPAR: Global
      Resource Name: fcs0

      Description
      SOFTWARE PROGRAM ERROR

      Recommended Actions
      PERFORM PROBLEM DETERMINATION PROCEDURES

      Detail Data
      SENSE DATA
      0000 0010 0000 0029 0303 0000 0000 0000 0000 0001 00C9 7212 0000 1958 0000 012C
      0000 0000 0000 0002 0000 0000 0000 0000 0000 0002 0000 0000 0000 0000 0000 0000
      0000 0000 0010 0000 0000 0010 0000 0000 0000 0000 0000 07D0 0000 07D0 0000 076C
      0000 0064 0000 000F 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000

    • #7435
      Michael
      Участник

      А на 4800 какая firmware?

    • #7437
      Vladmir
      Участник

      Firmware у сервисных процессоров одинаковая.

      DS4800 firmware

      Current configuration
      Firmware version: 07.50.13.00
      NVSRAM version: N1815D48R1050V07
      EMW version: 10.50.G5.25
      AMW version: 10.50.G5.25

    • #7438
      Sever
      Участник

      havoc писал(а):

      При попытке сделать Check system readiness из HMC выдает ошибку “HSCF0093E Unable to determine managed system readiness. Error code E302F933.” Описание ошибки: An exception occurred in the getRedundantFspInfoExt() method to the primary service processor when attempting to determine the state of the secondary service processor.
      Problem determination. Reboot the HMC and retry the operation. If the error occurs again, contact your next level of support.
      Сами сервисные процессоры доступны, и из HMC (status – available), и просто пингуются. Поддержки след. уровня нет ( Перезагрузка HMC не помогла.

      Собственно вопрос – что это за зверь и как можно понять, что именно не работает?

      System in Half Genesis Mode
      Systems Affected:
      9117-570, 9406-570, 9119-590, 9119-595 and 9406-595 systems, running system firmware release level SF235 or SF240 that was installed when the system was manufactured, and that have the redundant service processor feature installed and enabled.
      Problem Description:
      On the affected systems, prior to performing a concurrent firmware update or disabling service processor redundancy during runtime, see if the system is in half genesis mode. Half Genesis mode means that only one of the two service processors has successfully booted the system and verified all its connections.
      Product Engineering strongly recommends the installation HMC code V6R1.3 or V7R3.3 (or higher) prior to the installation of system firmware. When installing system firmware using an HMC at these levels, the HMC will automatically check for this condition prior to code load (via System Readiness Check).

      Procedure to check if system is in half genesis mode via the HMC:
      If half genesis mode is detected by the System Readiness Check, then the following message will be displayed to the user:

      HSCF0152E Service processor on is in half-genesis condition.
      Licensed Internal Code update will cause loss of service processor redundancy.
      The system must be powered off and a service processor failover must be initiated
      before updating Licensed Internal Code.

      Прошивку рекомендую обновить до уровня 240_358 или 240_382

    • #7441
      Сергей
      Участник

      havoc писал(а):

      Firmware у сервисных процессоров одинаковая.

      DS4800 firmware

      Current configuration
      Firmware version: 07.50.13.00

      ага-ага.
      в этой прошивке есть баг, который может вызывать перегрухз контроллеров при сборе all support data.
      а еще в см 10.50 есть агент, который регулярно собирает этот ASD в определенное время.

      вопрос: а уж не в 23:55 ли он у вас это дело собирает? 🙂

    • #7445
      Michael
      Участник

      А не обновить ли прошивочку до последней версии 07.60.28, а?

      Кстати, именно та версия 07.50.13.00, что сейчас у Вас, у нас глючила убойно, пришлось в срочном порядке перепрошиваться до 07.60.28, тут [/url] я уже писал об этом.

    • #7447
      Vladmir
      Участник

      А железный саппорт по стойке, интересно, этого сказать не мог?
      Спасибо за наводку. Осознал. Обновим, думаю на выходных. Результат сообщу.

    • #7483
      Michael
      Участник

      В железном саппорте тоже люди работают…

      Да и вообще, “на сервис надейся, а сам не плошай” :laugh:

      Найдено тут

      Guidance for firmware (FW) selection:
      – In general, the recommended level of DS4800 controller FW is 07.36.17.00 and ESM FW 98D0 (1.67) for EXP810 enclosures and 9682 for the EXP710 enclosures.
      – DS4800 controllers using the 600GB disk drive module or requiring the latest interoperability must use firmware 07.60.28.00. New systems which ship with FW 07.50.13.00, that require these functions must be upgraded at installation time to FW 7.60.28.00. If an existing system is already installed with FW 07.50.13.00, there is no requirement to change.
      – The minimum controller FW for any DS4800 is 07.36.17.00 or 06.60.22.00 with ESM FW 98D0 (1.67) (EXP810), 9681 (EXP710), 9330 (EXP700) and 9565 (EXP100).
      – If upgrading a DS4800 system from 06.xx FW, you may only upgrade to either 07.36.17.00 or 07.60.28.00 level.
      – Storage Manager 10.60.x5.17 is the latest version and recommended for all FW levels.

    • #7484
      Сергей
      Участник

      mih писал(а):

      – If upgrading a DS4800 system from 06.xx FW, you may only upgrade to either 07.36.17.00 or 07.60.28.00 level.

      тока тут стоит уточнить, что идти с 6.хх на 7.60 в один шаг нельзя, а надо в промежутке поставить 7.36.
      иначе беда будет.

    • #7683
      Vladmir
      Участник

      Сорри за задержку с ответом – невовремя заболел.
      Вчера перепрошил стойку. Ошибок, появляющихся в 23-55, и связанных-таки со сбором systeminfo, не стало – уже плюс. Окончательные выводы о получилось-не получилось можно будет сделать через недели две.
      Спасибо большое всем, особенно mih и smk.

Просмотр 15 веток ответов
  • Для ответа в этой теме необходимо авторизоваться.