Нет доступа к партиции, но пингуется


Главная Форумы POWER Systems AIX/Hardware Нет доступа к партиции, но пингуется

В этой теме 28 ответов, 7 участников, последнее обновление  roman 6 года/лет, 3 мес. назад.

  • Автор
    Сообщения
  • #12595

    Kruzhko Valerij
    Участник

    Добрый день!
    Партиция пингуется, но никакого более доступа к нему нет(SSH, telnet). Заходил через консоль HACMP, набирал команду vtmenu, выбираю необходимый мне сервер, выдаётся 2 сообщения:

    Open in progress

    Open Completed.

    В этом состоянии консоль продолжает висеть!

    HACMP показывает, что данная партиция в состоянии «Running», ошибок никаких не выдаёт. На самом сервере индикаторы в штатном режиме.

    Сервер Р520.

  • #12597

    andrewk
    Участник

    в 90% случаев — на LPAR кончилась память и getty не может стартовать login.

  • #12599

    Kruzhko Valerij
    Участник

    Оперативная память? Какими инструментами определить, что это именно в этом проблема? Если проблема в этом, то как её решить?

  • #12601

    andrewk
    Участник

    решить просто — chsysstate -o shutdown —restart —immed 🙂
    определить сложнее — для этого надо сначала залогиниться, если конечно хост не мониторился.

  • #12604

    terminus
    Участник

    У меня такое недавно было, когда от LPAR отвалился LUN на котором была его rootvg 🙂
    Но я тогда мог зайти на ту машину через mkvterm из HMC. Правда перезапустить ее через shutdown не мог.

  • #12636

    Согласен с andrewk, сталкивался с таким «безобразным» поведением при нехватке памяти. Это бывает, например, если некорректно настроить ОС и DB2. В этом случае DB2 пытается запросить у ОС память, но дойдя до предела, ОС пытается сказать DB2, что хватит, а то будет плохо, но DB2 продолжает «жрать» память, после этого такой коллапс и происходит. Решается правильной настройкой.
    Те же симптомы, пингуется, но система недоступна.

  • #12646

    roman
    Участник

    Продолжение истории:
    после выключения и активации данного LPAR он не загрузился, код ошибки AA060011. После анализа vios-партиции в ответ на команду lsmap -all для vhost, соответствующего данному LPAR, выдавалась ошибка Unable to access the device «vhost0».
    После рестарта vios-партиции все стало нормально: LPAR поднялся без проблем.
    В errpt на vios-партиции последние ошибки
    LABEL: CLIENT_FAILURE
    IDENTIFIER: C972F43B
    Date/Time: Fri Jun 10 03:44:54 2011

    LABEL: SC_DISK_ERR4
    IDENTIFIER: DCB47997
    Date/Time: Fri Jun 10 00:11:31 2011

    LABEL: SC_DISK_PCM_ERR1
    IDENTIFIER: C43F90ED
    Date/Time: Fri Jun 10 00:08:39 2011

    LABEL: FCP_ERR14
    IDENTIFIER: D5676F6F
    Date/Time: Fri Jun 10 00:08:39 2011

    Версия support от поставщиков железа: ночью вылетел vhost из-за какого-то переполнения, отвалились диски и все перестало работать.
    Но по факту утром люди еще могли работать в приложении, это зафиксировано в логах данного приложения. Уже только после 8 часов реально начались наблюдаться проблемы со стороны приложения.
    Помогите разобраться в данной ситуации и прокомментировать ответ support (не IBM). Что это за переполнение и почему раньше мы никогда его не наблюдали?

  • #12649

    andrewk
    Участник

    LSI? 🙂
    http://kb.lsi.com/KnowledgebaseArticle16512.aspx

    SC_DISK_PCM_ERR1 Subsystem Component Failure

    The storage subsystem has returned an error indicating that some component (hardware or software) of the storage subsystem has failed. The detailed sense data identifies the failing component and the recovery action that is required. Failing hardware components should also be shown in the Storage Manager software, so the placement of these errors in the error log is advisory and is an aid for your technical-support representative.

    в общем, гугель говорит, что саппорт не-IBM гонит. Полный вывод errpt последних двух ошибок можете прислать?

  • #12655

    roman
    Участник

    вот и мне не особо нравится такая интерпретация.
    Вывод последних двух ошибок:

    LABEL: SC_DISK_PCM_ERR1
    IDENTIFIER: C43F90ED

    Date/Time: Fri Jun 10 00:08:39 2011
    Sequence Number: 2258
    Machine Id:
    Node Id:
    Class: H
    Type: PERM
    WPAR: Global
    Resource Name: hdiskX
    Resource Class: disk
    Resource Type: mpioapdisk
    Location:
    VPD:
    Manufacturer…………….IBM
    Machine Type and Model……1814 FAStT
    ROS Level and ID…………
    Serial Number……………
    Device Specific.(Z0)……..
    Device Specific.(Z1)……..

    Description
    SUBSYSTEM COMPONENT FAILURE

    Probable Causes
    ARRAY DASD MEDIA
    POWER OR FAN COMPONENT

    Failure Causes
    ARRAY DASD MEDIA
    POWER OR FAN COMPONENT

    Recommended Actions
    PERFORM PROBLEM DETERMINATION PROCEDURES

    Detail Data
    PATH ID
    1
    SENSE DATA
    0A00 2A00 01E2 9238 0000 0804 0000 0000 0000 0000 0000 0000 0102 0000 7000 0600
    0000 0098 0000 0000 8B02 0000 0000 0000 0100 0000 0000 0000 0000 0000 0000 8805
    0099 9999 992A 0001 E292 3800 0008 0400 0000 5347 3832 3533 3935 3639 2020 2020
    2020 0660 1700 000D 0000 0700 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
    0001 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
    0000 0000 8560 3881 3036 3039 3131 2F32 3332 3031 3700 0000 0000 0000 0000 0000
    0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 3A94
    1CBF 0083 0080
    —————————————————————————
    LABEL: FCP_ERR14
    IDENTIFIER: D5676F6F

    Date/Time: Fri Jun 10 00:08:39 2011
    Sequence Number: 2257
    Machine Id:
    Node Id:
    Class: H
    Type: TEMP
    WPAR: Global
    Resource Name: fscsiX
    Resource Class: driver
    Resource Type: efscsi
    Location:

    Description
    ATTACHED SCSI TARGET DEVICE ERROR

    Recommended Actions
    PERFORM PROBLEM DETERMINATION PROCEDURES

    Detail Data
    SENSE DATA
    0000 0010 0000 00AF 0000 0902 0203 0000 0000 0000 0000 0000 0000 0000 0000 0000
    0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
    0000 0000 0000 0000 0000 0000 0001 0200 0000 0000 0001 0000 0000 0000 0000 0000
    2008 00A0 B832 365F 2008 00A0 B832 365E 0000 0000 0000 0000 0000 0000 0000 0000
    0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
    0000 036F 0000 0002 0000 0200 0000 0000 0000 0001 0000 0000 0000 0000 0000 0000
    0000 0000 0000 000F 0000 0000 0000 0280 0000 0012 0000 0000 0000 0000 0850 3000
    0000 0000 0000 0000 0000 0000 0000 0000 0000 0D02 C200 0100 0019 0000 0000 0000
    0000 0000 044E 8678 0000 0001 0200 0000 0000 0000 0000 0000 0000 0001 636D 4643
    F100 0180 08D5 13A0 F100 0180 08D5 1414 F100 0180 08D4 E0D8 0000 0000 0018 63A0
    0000 0000 0018 6414 0000 0000 0018 50D8 0002 2000 0100 0000 00FF FFFC 0000 0000
    0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
    0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
    0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
    0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
    0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
    0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
    0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
    0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
    0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
    0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
    0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
    0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
    0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
    0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
    0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
    0100 0000 FC02 0000 0121 0001 0000 0000 2008 00A0 B832 365F 0000 0000 0000 0000
    0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
    1000 0000 C97C 2659 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
    0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
    0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
    0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000

    На всякий случай еще несколько предыдущих ошибок (возможно, они будут интересны):
    —————————————————————————
    LABEL: FCP_ERR14
    IDENTIFIER: D5676F6F

    Date/Time: Fri Jun 10 00:08:31 2011
    Sequence Number: 2256
    Machine Id:
    Node Id:
    Class: H
    Type: TEMP
    WPAR: Global
    Resource Name: fscsiX
    Resource Class: driver
    Resource Type: efscsi
    Location:

    Description
    ATTACHED SCSI TARGET DEVICE ERROR

    Recommended Actions
    PERFORM PROBLEM DETERMINATION PROCEDURES

    Detail Data
    SENSE DATA
    0000 0010 0000 00AF 0000 0902 0203 0000 0000 0000 0000 0000 0000 0000 0000 0000
    0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
    0000 0000 0000 0000 0000 0000 0001 0200 0000 0000 0001 0000 0000 0000 0000 0000
    2008 00A0 B832 365F 2008 00A0 B832 365E 0000 0000 0000 0000 0000 0000 0000 0000
    0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
    0000 036F 0000 0002 0000 0200 0000 0000 0000 0001 0000 0000 0000 0000 0000 0000
    0000 0000 0000 000F 0000 0000 0000 0280 0000 0012 0000 0000 0000 0000 0850 3000
    0000 0000 0000 0000 0000 0000 0000 0000 0000 0D02 C200 0100 0019 0000 0000 0000
    0000 0000 044E 8678 0000 0001 0200 0000 0000 0000 0000 0000 0000 0001 636D 4643
    F100 0180 08D5 13A0 F100 0180 08D5 1414 F100 0180 08D4 E0D8 0000 0000 0018 63A0
    0000 0000 0018 6414 0000 0000 0018 50D8 0002 2000 0100 0000 00FF FFFC 0000 0000
    0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
    0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
    0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
    0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
    0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
    0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
    0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
    0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
    0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
    0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
    0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
    0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
    0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
    0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
    0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
    0100 0000 FC02 0000 0121 0001 0000 0000 2008 00A0 B832 365F 0000 0000 0000 0000
    0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
    1000 0000 C97C 2659 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
    0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
    0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
    0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
    —————————————————————————
    LABEL: SC_DISK_PCM_ERR2
    IDENTIFIER: C48C3EC2

    Date/Time: Fri Jun 10 00:08:28 2011
    Sequence Number: 2255
    Machine Id:
    Node Id:
    Class: H
    Type: INFO
    WPAR: Global
    Resource Name: hdiskX
    Resource Class: disk
    Resource Type: mpioapdisk
    Location:
    VPD:
    Manufacturer…………….IBM
    Machine Type and Model……1814 FAStT
    ROS Level and ID…………
    Serial Number……………
    Device Specific.(Z0)……..
    Device Specific.(Z1)……..

    Description
    ARRAY ACTIVE CONTROLLER SWITCH

    Probable Causes
    ARRAY CONTROLLER
    CABLES AND CONNECTIONS

    Failure Causes
    ARRAY CONTROLLER
    CABLES AND CONNECTIONS

    Recommended Actions
    NO ACTION NECESSARY

    Detail Data
    PATH ID
    1
    SENSE DATA
    0A00 5511 0000 0000 0001 3C04 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
    0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
    0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
    0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
    0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
    0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
    0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 3A94
    21DF 0080 0080
    —————————————————————————
    LABEL: FCP_ERR14
    IDENTIFIER: D5676F6F

    Date/Time: Fri Jun 10 00:08:14 2011
    Sequence Number: 2254
    Machine Id:
    Node Id:
    Class: H
    Type: TEMP
    WPAR: Global
    Resource Name: fscsiX
    Resource Class: driver
    Resource Type: efscsi
    Location:

    Description
    ATTACHED SCSI TARGET DEVICE ERROR

    Recommended Actions
    PERFORM PROBLEM DETERMINATION PROCEDURES

    Detail Data
    SENSE DATA
    0000 0010 0000 00AF 0000 0902 0203 0000 0000 0000 0000 0000 0000 0000 0000 0000
    0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
    0000 0000 0000 0000 0000 0000 0001 0200 0000 0000 0001 0000 0000 0000 0000 0000
    2008 00A0 B832 365F 2008 00A0 B832 365E 0000 0000 0000 0000 0000 0000 0000 0000
    0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
    0000 036F 0000 0002 0000 0200 0000 0000 0000 0001 0000 0000 0000 0000 0000 0000
    0000 0000 0000 000F 0000 0000 0000 0280 0000 0012 0000 0000 0000 0000 0850 3000
    0000 0000 0000 0000 0000 0000 0000 0000 0000 0D02 C200 0100 0019 0000 0000 0000
    0000 0000 044E 8678 0000 0001 0200 0000 0000 0000 0000 0000 0000 0001 636D 4643
    F100 0180 08D5 13A0 F100 0180 08D5 1414 F100 0180 08D4 E0D8 0000 0000 0018 63A0
    0000 0000 0018 6414 0000 0000 0018 50D8 0002 2000 0100 0000 00FF FFFC 0000 0000
    0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
    0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
    0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
    0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
    0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
    0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
    0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
    0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
    0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
    0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
    0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
    0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
    0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
    0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
    0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
    0100 0000 FC02 0000 0121 0001 0000 0000 2008 00A0 B832 365F 0000 0000 0000 0000
    0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
    1000 0000 C97C 2659 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
    0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
    0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
    0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
    —————————————————————————
    LABEL: FCP_ERR14
    IDENTIFIER: D5676F6F

    Date/Time: Fri Jun 10 00:08:08 2011
    Sequence Number: 2253
    Machine Id:
    Node Id:
    Class: H
    Type: TEMP
    WPAR: Global
    Resource Name: fscsiX
    Resource Class: driver
    Resource Type: efscsi
    Location:

    Description
    ATTACHED SCSI TARGET DEVICE ERROR

    Recommended Actions
    PERFORM PROBLEM DETERMINATION PROCEDURES

    Detail Data
    SENSE DATA
    0000 0010 0000 00AF 0000 0902 0203 0000 0000 0000 0000 0000 0000 0000 0000 0000
    0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
    0000 0000 0000 0000 0000 0000 0001 0200 0000 0000 0001 0000 0000 0000 0000 0000
    2008 00A0 B832 365F 2008 00A0 B832 365E 0000 0000 0000 0000 0000 0000 0000 0000
    0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
    0000 036F 0000 0002 0000 0200 0000 0000 0000 0001 0000 0000 0000 0000 0003 0000
    0000 0000 0000 000F 0000 0000 0000 02A0 0000 0012 0000 0000 0000 0000 0850 3000
    0000 0000 0000 0000 0000 0000 0000 0000 0000 0D02 C200 0100 0019 0000 0000 0000
    0000 0000 044E 8678 0000 0001 0200 0000 0000 0000 0000 0000 0000 0001 636D 4643
    F100 0180 08D5 13A0 F100 0180 08D5 1414 F100 0180 08D4 E0D8 0000 0000 0018 63A0
    0000 0000 0018 6414 0000 0000 0018 50D8 0002 2000 0100 0000 00FF FFFC 0000 0000
    0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
    0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
    0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
    0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
    0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
    0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
    0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
    0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
    0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
    0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
    0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
    0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
    0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
    0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
    0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
    0100 0000 FC02 0000 0121 0001 0000 0000 2008 00A0 B832 365F 0000 0000 0000 0000
    0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
    1000 0000 C97C 2659 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
    0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
    0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
    0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000

  • #12656

    byldozer
    Участник

    ИМХО — нехватка памяти.
    говоря словами кролика «кто-то слишком много есть» 🙂

    А нет — исходя из логов — отвалились диски.
    Или физика (кто-то что-то дернул/выключил) или зоны.
    Проверь — не выключалось ли электричество.

  • #12657

    roman
    Участник

    ИМХО — нехватка памяти.
    говоря словами кролика «кто-то слишком много есть» 🙂

    Нехватка памяти кому? Если это так, то почему после переактивации партиции диски не появились?

  • #12658

    byldozer
    Участник

    я уже исправил свой пост :-).
    Точно не память а диски.
    Найди причину пропадания дисков. Посмотри в ASD — возможно что-то проясниться

  • #12659

    roman
    Участник

    последние 3 строки Victor’а прочитал уже позже

    Что диски отвалились, это уже все поняли и с этим согласились. Вопрос в другом, почему они отвалились? Кто-то что-то дернул/выключил отпадает сразу.

  • #12660

    byldozer
    Участник

    Посмотри в ASD (ALL SUPPORT DATA) массива, возможно там есть ошибки

  • #12662

    roman
    Участник

    Посмотри в ASD массива, возможно там есть ошибки

    есть, про Link Down, Link Up, смена assigned controller. Вот последние перед тем как все перестало работать:

    Date/Time: 10.06.11 7:38:18
    Sequence number: 4585
    Event type: 4011
    Event category: Error
    Priority: Critical
    Description: Logical Drive not on preferred path due to ADT/RDAC failover
    Event specific codes: 0/0/0
    Component type: Controller
    Component location: Controller in slot B
    Logged by: Controller in slot B

    Date/Time: 10.06.11 7:45:19
    Sequence number: 4584
    Event type: 1019
    Event category: Internal
    Priority: Informational
    Description: Extended Fibre Channel link down (greater than one minute)
    Event specific codes: 0/0/0
    Component type: Channel
    Component location: Host-side: controller in slot A, port 2
    Logged by: Controller in slot A

    Date/Time: 10.06.11 7:44:46
    Sequence number: 4583
    Event type: 5600
    Event category: Internal
    Priority: Informational
    Description: Controller passed diagnostics
    Event specific codes: 0/0/0
    Component type: Controller
    Component location: Controller in slot A
    Logged by: Controller in slot A

    Date/Time: 10.06.11 7:34:22
    Sequence number: 4582
    Event type: 5601
    Event category: Internal
    Priority: Informational
    Description: This controller’s alternate passed diagnostics
    Event specific codes: 0/0/0
    Component type: Controller
    Component location: Controller in slot B
    Logged by: Controller in slot B

  • #12663

    andrewk
    Участник

    0000 00af

    FSCSI 4
    FCP_ERR14

    An interrupt-level GID_PN, part of dynamic tracking or fast fail error recovery, was rejected by the name server, most likely because the device is not on the fabric. Reason code/explanation and target_info included.

    A GID_PN request from AIX dynamic tracking has been returned from the SAN switch Name Server with an error.

    0x09 Unable to perform request. There was no data in the name server database to satisfy the query. This is a SAN or Target device issue. Check to see that the target device is registered with the switch names server. Contact SAN support

  • #12665

    byldozer
    Участник

    Обычно пропадание линка и повторное его появлением никак не сказывается на AIX, только на приложение, если приложение активно обращается к диску то оно падает. В данном случае возможно отсутствует альтернативный путь ко второму контролеру.

  • #12666

    roman
    Участник

    Обычно пропадание линка и повторное его появлением никак не сказывается на AIX, только на приложение, если приложение активно обращается к диску то оно падает. В данном случае возможно отсутствует альтернативный путь ко второму контролеру.

    путь ко второму контроллеру есть

  • #12667

    roman
    Участник

    0000 00af

    FSCSI 4
    FCP_ERR14

    An interrupt-level GID_PN, part of dynamic tracking or fast fail error recovery, was rejected by the name server, most likely because the device is not on the fabric. Reason code/explanation and target_info included.

    A GID_PN request from AIX dynamic tracking has been returned from the SAN switch Name Server with an error.

    0x09 Unable to perform request. There was no data in the name server database to satisfy the query. This is a SAN or Target device issue. Check to see that the target device is registered with the switch names server. Contact SAN support

    Интересная информация, спасибо большое. А где про это можно вообще почитать? Если можно ссылочку. Честно говоря, глубоких познаний SAN у меня нет, хотелось бы понять, что там происходит

  • #12668

    andrewk
    Участник

    у меня глубоких познаний по SAN тоже нет 🙂 Это просто расшифровка SENSE DATA из Вашего сообщения об ошибке.

  • #12669

    roman
    Участник

    и можно поподробнее где-то узнать про ошибку
    LABEL: CLIENT_FAILURE
    IDENTIFIER: C972F43B
    и расшифровку ее
    Detail Data
    ADDITIONAL INFORMATION

  • #12670

    roman
    Участник

    у меня глубоких познаний по SAN тоже нет 🙂 Это просто расшифровка SENSE DATA из Вашего сообщения об ошибке.

    а где-то можно почитать про расшифровку этих самым SENSE DATA? 🙂 Какие байты/биты за что отвечают

  • #12671

    andrewk
    Участник

    почитать можно в интранете IBM 😀
    По поводу CLIENT FAILURE — это уже последствие. У Вас что-то произошло либо с DS4k, либо с свитчами. AIX, у которого настроен dynamic tracking и fast failover, определил это и попытался переключиться на резервный контролер, но не смог. Результат — пропадание диска. В общем и целом, пропадание диска не должно вести к пропаданию LPAR’а (если, конечно, на диске не было пейджинг-спейс), поэтому я предлагаю, что приложение, не сумевшее записать данные на диск, начало буферизовать их в памяти. Память к утру, когда начались активные операции с приложением, закончилась и это вызвало останов системы с теми симптомами, которые были описаны в первоначальном сообщении. Лечить надо проверкой конфигурации стореджа и свитчей по редбуку, а заодно проведением тестов на правильную работу failover.

  • #12735

    roman
    Участник

    на сервере есть vios-партиция с двумя физическими fc-картами, соответсвенно есть два устройства: fcs0 и fcs1. Эти fc-карты подключены через SAN-switchs к DS4700 и DS3400. На vios-партиции используется MPIO. Сам vios видит два дисковых массива: DS4700 и DS3400 с их дисками. На этом же самом vios есть два устройства: dac0 и dac1. Я так понимаю, что это контроллеры дисковых массивов.
    lsdev -dev dac -attr выдает в ww name WWPN дисковой стойки DS3400. Я не совсем понимаю, должен ли я видеть еще устройства dac для DS4700, если они есть для DS3400?

  • #12736

    byldozer
    Участник

    mpio_get_config -aV
    должно показать доступные массивы и диски

    lspath покажет пути к этим дискам если все нормально — путей должно быть по два на диск

  • #12737

    roman
    Участник

    эти команды все красиво показывают, никаких претензий. Меня конкретно вопрос насчет dac-устройств интересует. Я так понял, при MPIO не создаются dar-устройства. У меня их и нет. Кто-то может что-то объяснить или кинуть ссылку насчет dac-устройств. Чисто логически: в данной конфигурации их не должно быть вообще или тогда уже 4 штуки. Где тут ошибка?

  • #12784

    Alexander Tchoulkov
    Участник

    Здравствуйте,

    декодирование sense data описано более менее сносно в «Fibre Channel Planning and Integration:
    User’s Guide and Service Information» скачать можно здесь:

    http://publibfp.dhe.ibm.com/epubs/pdf/c2343293.pdf

    так же рекомендую ознакомиться со следующими сайтами:

    http://www.t10.org/ (SCSI2,3 SAS)

    и

    http://www.fibrechannel.org/ (FC, HBA и пр.)

    Насчёт dac. Наличие или отсутствие dac устройств не зависит от типов драйверов RDAC или Native AIX MPIO. Они созданются если операционная система видит устройства UTM (access LUN) на дисковом массиве. Cоответственно сколько устройств UTM она видит столько и dac будет сконфигурировано.

  • #12785

    Alexander Tchoulkov
    Участник

    PS: описание «Fibre Channel Planning and Integration: User’s Guide and Service Information» не претендует на полноту и широту изложения.

  • #12793

    roman
    Участник

    Насчёт dac. Наличие или отсутствие dac устройств не зависит от типов драйверов RDAC или Native AIX MPIO. Они созданются если операционная система видит устройства UTM (access LUN) на дисковом массиве. Cоответственно сколько устройств UTM она видит столько и dac будет сконфигурировано.

    тогда я не могу понять, почему видятся dac DS3400, но не видятся dac DS4700? При этом диски видятся с обоих DS

Для ответа в этой теме необходимо авторизоваться.