Потерялся MPIO и не возвращается


Главная Форумы POWER Systems AIX/Hardware Потерялся MPIO и не возвращается

Помечено: , ,

В этой теме 5 ответов, 3 участника, последнее обновление  Николай Т. 2 года/лет, 3 мес. назад.

  • Автор
    Сообщения
  • #37958

    Николай Т.
    Участник

    Живут на серверах LPAR’ы мои и дружественные, мои на aix 6.1, дружественные на 7.1, виртуализованы через VIOS, подключены в fc свитчи brocade и СХД Storwize7000. В один день были запланированы работы по одной из фабрик (её объединяли с фабрикой в другом ЦОДе), на свитче были убит зонинг (но на vios маппинг не отключали) и сервера остались работать с одной фабрикой. Через несколько часов на отключенной фабрике сменился fabric id и примерно в это время все lpar’ы на серверах перестали отзываться из консоли и по сети. В процессе запуска LPAR’ов (сначала VIOS’ы потом уже LPAR’ы за ними) обратил внимание что дружественные LPAR’ы отказывались грузиться по сети с сообщением о отсутствии операционной системы, в связи с чем сервера грузил из SMS указывая в нём загрузочный диск. После этого, началось странное, часть LPAR’ов (с AIX 7.1 TL3) загрузились нормально и начали работать, а другая часть (с AIX 7.1 без TL) загрузилась без MPIO показывая с lscfg/lsdev кучу дисков вместо одного. Восстановление работы отключенной фабрики на следующий день восстановление MPIO не принесло, до сих пор некотрые LPAR’ы не видят MPIO и картина на них печальная, диски MPIO выглядят как Defined, я рядом те-же диски с одинаковыми pvid как Available и в атрибутах у них никаких параметров связанных c MPIO.

    Отсюда вопросы.

    Почему зависли все LPAR’ы при изменении fabric id ?

    Почему потерялось MPIO и как его вернуть без переустановки систем ?

     

     

  • #37959

    Николай Т.
    Участник

    Эксперементальным путём выяснилось, что установщик чистой 7.1 видит несколько дисков, а 7.1 TL3 видит один диск.

  • #37968

    owlmind
    Участник

    http://unixadmin.free.fr/?p=229

     

    dyntrk=yes

     

    sddpcm и devices.fcp.disk.ibm.mpio.rte установлены корректно? devices.fcp.disk.ibm.mpio.rte насколько я знаю по дефолту эту опцию включает.

  • #37969

    Николай Т.
    Участник

    Все 4 адаптера (по два на фабрику) настроены одинаково и были так настроены.

    attach switch How this adapter is CONNECTED False
    dyntrk yes Dynamic Tracking of FC Devices True
    fc_err_recov fast_fail FC Fabric Event Error RECOVERY Policy True
    scsi_id 0x20101 Adapter SCSI ID False
    sw_fc_class 3 FC Class for Fabric True

  • #37973

    Aleksandr
    Участник

    Доброго.

    Немного вопросов, так как не все понял — диски LPAR отдаются как vscsi или как NPIV. Если как VSCSI — то пришлите вывод команды с vio  lspath -dev hdisk$ и тот же самый диск с LPAR —  lspath -l hdisk$ -F»connection:parent:path_status:status»

     

  • #37974

    Николай Т.
    Участник

    Диски в LPAR отдаются как NPIV.

    Проблему решил установкой SDDPCM рекомендованный для нашей СХД, однако теоретически есть непонимание, как это работало до этого. Единственное что смог вытянуть из СХДшников, что до этого зонинг был «неправильный» и в одной зоне было несколько таргетов и инициаторов, потом в процессе работ на одной фабрике зонинг привели к нормальному виду где в одной зоне один таргет и инициатор, а на второй фабрике сначала зонинг весь отключили, а потом сменили id фабрики (объединяли fc сети с нескольких ЦОДов). Собственно момент массового зависания серверов и рассыпания mpio и пришелся на время когда отключенная (без зон) фабрика поменяла id.

Для ответа в этой теме необходимо авторизоваться.