Потерялся MPIO и не возвращается

Главная Форумы POWER Systems AIX/Hardware Потерялся MPIO и не возвращается

Помечено: , ,

Просмотр 5 веток ответов
  • Автор
    Сообщения
    • #37958
      Николай Т.
      Участник

      Живут на серверах LPAR’ы мои и дружественные, мои на aix 6.1, дружественные на 7.1, виртуализованы через VIOS, подключены в fc свитчи brocade и СХД Storwize7000. В один день были запланированы работы по одной из фабрик (её объединяли с фабрикой в другом ЦОДе), на свитче были убит зонинг (но на vios маппинг не отключали) и сервера остались работать с одной фабрикой. Через несколько часов на отключенной фабрике сменился fabric id и примерно в это время все lpar’ы на серверах перестали отзываться из консоли и по сети. В процессе запуска LPAR’ов (сначала VIOS’ы потом уже LPAR’ы за ними) обратил внимание что дружественные LPAR’ы отказывались грузиться по сети с сообщением о отсутствии операционной системы, в связи с чем сервера грузил из SMS указывая в нём загрузочный диск. После этого, началось странное, часть LPAR’ов (с AIX 7.1 TL3) загрузились нормально и начали работать, а другая часть (с AIX 7.1 без TL) загрузилась без MPIO показывая с lscfg/lsdev кучу дисков вместо одного. Восстановление работы отключенной фабрики на следующий день восстановление MPIO не принесло, до сих пор некотрые LPAR’ы не видят MPIO и картина на них печальная, диски MPIO выглядят как Defined, я рядом те-же диски с одинаковыми pvid как Available и в атрибутах у них никаких параметров связанных c MPIO.

      Отсюда вопросы.

      Почему зависли все LPAR’ы при изменении fabric id ?

      Почему потерялось MPIO и как его вернуть без переустановки систем ?

       

       

    • #37959
      Николай Т.
      Участник

      Эксперементальным путём выяснилось, что установщик чистой 7.1 видит несколько дисков, а 7.1 TL3 видит один диск.

    • #37968
      owlmind
      Участник

      http://unixadmin.free.fr/?p=229

       

      dyntrk=yes

       

      sddpcm и devices.fcp.disk.ibm.mpio.rte установлены корректно? devices.fcp.disk.ibm.mpio.rte насколько я знаю по дефолту эту опцию включает.

    • #37969
      Николай Т.
      Участник

      Все 4 адаптера (по два на фабрику) настроены одинаково и были так настроены.

      attach switch How this adapter is CONNECTED False
      dyntrk yes Dynamic Tracking of FC Devices True
      fc_err_recov fast_fail FC Fabric Event Error RECOVERY Policy True
      scsi_id 0x20101 Adapter SCSI ID False
      sw_fc_class 3 FC Class for Fabric True

    • #37973
      Aleksandr
      Участник

      Доброго.

      Немного вопросов, так как не все понял – диски LPAR отдаются как vscsi или как NPIV. Если как VSCSI – то пришлите вывод команды с vio  lspath -dev hdisk$ и тот же самый диск с LPAR –  lspath -l hdisk$ -F”connection:parent:path_status:status”

       

    • #37974
      Николай Т.
      Участник

      Диски в LPAR отдаются как NPIV.

      Проблему решил установкой SDDPCM рекомендованный для нашей СХД, однако теоретически есть непонимание, как это работало до этого. Единственное что смог вытянуть из СХДшников, что до этого зонинг был “неправильный” и в одной зоне было несколько таргетов и инициаторов, потом в процессе работ на одной фабрике зонинг привели к нормальному виду где в одной зоне один таргет и инициатор, а на второй фабрике сначала зонинг весь отключили, а потом сменили id фабрики (объединяли fc сети с нескольких ЦОДов). Собственно момент массового зависания серверов и рассыпания mpio и пришелся на время когда отключенная (без зон) фабрика поменяла id.

Просмотр 5 веток ответов
  • Для ответа в этой теме необходимо авторизоваться.