Проблема с пропаданием путей

Главная Форумы POWER Systems AIX/Hardware Проблема с пропаданием путей

Просмотр 22 веток ответов
  • Автор
    Сообщения
    • #17732
      Anton Bukhman
      Участник

      Приветствую, уважаемые коллеги.
      Меня уже давно приследует проблема:
      На сервере IBM p750(8233-E8B) пропадают пути до дисков, отданных с дискового массива NetApp(FAS3240) через SAN.
      Multipathing отрабатывает, т.е. некоторые пути остаются живыми, но падает производительность.
      Тестировал 2 алгоритма (fail_over и round_robin). Ведут себя одинаково(пропадают).
      На сервере 2 VIOS и 5 lpar. Есть 2 FC адаптера (5735 / 8 Gigabit PCI Express Dual Port Fibre Channel Adapter). Отданы каждому VIOS по 1 шт. На VIOS созданы виртуальные FC адаптеры (vfchostx) и отданы lpar’ам.
      На каждой lpar получается по 4 пути(4 fscsi).

      Пробовал увеличить ресурсы VIOS(Сейчас это 1CPU и 3GB RAM).
      Пробовал обновлять VIOS до версии 2.2.2.1

      На lpar’ах версия 6100-07-03-1207
      IPL сервера 78, номер EC 01AL730

      Версия драйверов для NetApp свежая.

      Подскажите пожалуйста что еще можно сделать.

    • #17733
      Anton Bukhman
      Участник

      Забыл еще сказать, что стандартными методами пути не восстанавливаются.(smit mpio)
      Приходится удалять fscsix и sfwcommx.
      Потом cfgmgr и только тогда пути восстанавливаются.

    • #17749
      Alex
      Участник

      Ничего не знаю про NetApp, но уж точно нужно больше информации.

      Как падают пути?
      Пропадает всё через один из fc-адаптеров или как-то по-другому?
      Что в этот момент на коммутаторе?
      Что в этот момент говорит массив?

      Также я не могу понять, как из двух VIOS (в каждом по адаптеру) получилось по четыре виртуальных адаптера на раздел. Даже если там четыре зоны (если массив двухголовый) – всё-равно не понимаю, почему адаптеров четыре, а не два.

    • #17750
      Sever
      Участник

      5735 – двух портовый

    • #17759
      Anton Bukhman
      Участник

      Да, 5735 – Dual port.
      На каждом VIOS создано по 2 виртуальных FC адаптера для каждого lpar.(На сколько я понимаю их может быть сколько угодно).
      Пути пропадают примерно так :
      root@aix1lpar4 $ lspath
      Enabled hdisk0 vscsi0
      Enabled hdisk1 vscsi1
      Enabled hdisk2 fscsi0
      Enabled hdisk3 fscsi0
      Enabled hdisk4 fscsi0
      Enabled hdisk5 fscsi0
      Enabled hdisk6 fscsi0
      Enabled hdisk2 fscsi0
      Enabled hdisk3 fscsi0
      Enabled hdisk4 fscsi0
      Enabled hdisk5 fscsi0
      Enabled hdisk6 fscsi0
      Failed hdisk2 fscsi1
      Failed hdisk3 fscsi1
      Failed hdisk4 fscsi1
      Failed hdisk5 fscsi1
      Failed hdisk6 fscsi1
      Failed hdisk2 fscsi1
      Failed hdisk3 fscsi1
      Failed hdisk4 fscsi1
      Failed hdisk5 fscsi1
      Failed hdisk6 fscsi1
      Failed hdisk2 fscsi3
      Failed hdisk3 fscsi3
      Failed hdisk4 fscsi3
      Failed hdisk5 fscsi3
      Failed hdisk6 fscsi3
      Failed hdisk2 fscsi3
      Failed hdisk3 fscsi3
      Failed hdisk4 fscsi3
      Failed hdisk5 fscsi3
      Failed hdisk6 fscsi3
      Enabled hdisk2 fscsi2
      Enabled hdisk3 fscsi2
      Enabled hdisk4 fscsi2
      Enabled hdisk5 fscsi2
      Enabled hdisk6 fscsi2
      Enabled hdisk2 fscsi2
      Enabled hdisk3 fscsi2
      Enabled hdisk4 fscsi2
      Enabled hdisk5 fscsi2
      Enabled hdisk6 fscsi2

      Пропадают по разному. Иногда только по одному адаптеру, иногда по трём.
      при этом в errpt появляются сообщения типа :

      DE3B8540 0206092213 P H hdisk11 PATH HAS FAILED

      5A7598C3 0204153913 I O fscsi2 Additional FC SCSI Protocol Driver Infor

      4B436A3D 0204153913 T H fscsi2 LINK ERROR

      DCB47997 0204153713 T H hdisk12 DISK OPERATION ERROR

      D712FEAE 0202175413 T S fcs1 LINK_DEAD events reported by the VIOS

      A6F5AE7C 0206093413 I H hdisk13 PATH HAS RECOVERED

      На коммутаторах (Cisco MDS 9513) они настроены через NPIV. Т.е. физически занято по 2 порта на каждом коммутаторе :

      fc3/38 20 0x780063 c0:50:76:02:b2:73:00:00 c0:50:76:02:b2:73:00:00
      [aix1lpar1_fc0]
      fc3/38 20 0x780065 c0:50:76:02:b2:73:00:14 c0:50:76:02:b2:73:00:14
      [aix1lpar2_fc0]
      fc3/38 20 0x780068 10:00:00:00:c9:e8:d8:31 20:00:00:00:c9:e8:d8:31
      [p750_vio1_fc1]
      fc3/38 20 0x780069 c0:50:76:02:b2:73:00:1c c0:50:76:02:b2:73:00:1c
      [aix1lpar5_fc0]
      fc3/38 20 0x78006a c0:50:76:02:b2:73:00:04 c0:50:76:02:b2:73:00:04
      [aix1lpar3_fc0]
      fc3/38 20 0x78006b c0:50:76:02:b2:73:00:18 c0:50:76:02:b2:73:00:18
      [aix1lpar4_fc0]
      fc3/40 20 0x78005f 10:00:00:00:c9:cc:37:dc 20:00:00:00:c9:cc:37:dc
      [p750_vio1_fc0]
      fc3/40 20 0x78006d c0:50:76:02:b2:73:00:2a c0:50:76:02:b2:73:00:2a
      [aix1lpar1_fc1]
      fc3/40 20 0x78006e c0:50:76:02:b2:73:00:2c c0:50:76:02:b2:73:00:2c
      [aix1lpar2_fc1]
      fc3/40 20 0x78006f c0:50:76:02:b2:73:00:2e c0:50:76:02:b2:73:00:2e
      [aix1lpar3_fc1]
      fc3/40 20 0x780070 c0:50:76:02:b2:73:00:30 c0:50:76:02:b2:73:00:30
      [aix1lpar4_fc1]
      fc3/40 20 0x780071 c0:50:76:02:b2:73:00:32 c0:50:76:02:b2:73:00:32
      [aix1lpar5_fc1]

      В логах никаких ошибок нет.
      Зоны созданы под каждый lpar.
      Если смотреть show zoneset active vsan x то показывает что всё wwn’ы залогинены.
      Зона выглядит примерно так :
      zone name z_aix1lpar1 vsan 20
      * fcid 0x780063 [device-alias aix1lpar1_fc0]
      * fcid 0x780053 [device-alias fas5_1_0c]
      * fcid 0x780054 [device-alias fas5_2_0c]
      * fcid 0x78006d [device-alias aix1lpar1_fc1]

      Массивы администрирую не я, но storage-admin говорит, что с его стороны всё нормально.
      К этому массиву подключено много других серверов(В том числе другие AIX’ы и Solaris, Linux, Windows и пр.).

      А массив да, двухголовый.

    • #17768
      Alex
      Участник

      Ага, просмотрел про двупортовость, спасибо.

      Следуем логике.

      1) По восстановлению путей. Точно TL7 на lpar-ах? Меня смущает вот это
      http://www-01.ibm.com/support/docview.wss?uid=isg1IZ73584

      Уж больно сопадает симптоматика. Могли что-нибудь недочинить, опять же.

      2) Судя по
      D712FEAE 0202175413 T S fcs1 LINK_DEAD events reported by the VIOS

      всё-таки пропадает физический линк (возможно, на короткое время). Далее вступаю в область предположений. Возможно, что если через виртуальный адаптер нет трафика в этот момент – он и не отваливается.

      Интересно также проверить, у вас LINK_DEAD всё время на одном адаптере происходят, или на разных, вылейте errpt | grep LINK_DEAD с обоих VIOS, может банально один порт пошаливает.

      Что касается пустых логов на коммутаторах – странно, что-то там должно быть. Даже если не явные ошибки, то какая-то движуха в районе времени падения линка всё-равно должна наблюдаться, приведите её, если не сложно.

    • #17770
      Anton Bukhman
      Участник

      Да, TL точно
      root@srvlpr1 $ oslevel -s
      6100-07-03-1207

      и
      root@srvlpr1 $ instfix -i|grep ML
      All filesets for 6100-00_AIX_ML were found.
      All filesets for 6100-01_AIX_ML were found.
      All filesets for 6100-02_AIX_ML were found.
      All filesets for 6100-03_AIX_ML were found.
      All filesets for 6100-04_AIX_ML were found.
      All filesets for 6100-05_AIX_ML were found.
      All filesets for 6100-06_AIX_ML were found.
      All filesets for 6100-07_AIX_ML were found.

      На всех lpar одинаковая ситуация.
      Но хотя да, всё может быть..

      На счёт LINK_DEAD, извиняюся, ввёл в заблуждение.
      В это время был даун тайм и это я тестировал.(Вручную опускал порты на коммутаторах)

      А вот всё что было не 2 февраля, это уже не я 🙂

      Ну и ошибки эти на lpar, а не на VIOS. Там всё чисто.

    • #17771
      Alex
      Участник

      Ммм, ну для очистки совести спрошу – уровень микрокода на fc-адаптерах удовлетворяет рекомендациям?

      The minimum firmware requirement to enable NPIV for AIX on this adapter is 110305

    • #17772
      Sever
      Участник

      В настоящий момент единственным поддерживаемым IBMом уровнем микрокода является 200307

      Notice for AIX and VIOS customers installing microcode

      AIX APARs
      =========

      Prior to installing the microcode, the following APARs are required to be installed. Failure to do so may result in LPAR hang while installing microcode.

      · IZ89104 for AIX 7.1 (Shipped in devices.pci.df1000f7.com 7.1.0.15)

      · IZ88330 for AIX 6.1, TL7 (Shipped in devices.pci.df1000f7.com 6.1.7.0)

      · IZ82960 for AIX for AIX 6.1, TL6 (Shipped in devices.pci.df1000f7.com 6.1.6.15)

      · IZ82911 for AIX for AIX 5.3, TL12 (Shipped in devices.pci.df1000f7.com 5.3.12.3)

      · IZ81003 for AIX for AIX 5.3, TL11 (Shipped in devices.pci.df1000f7.com 5.3.11.6)

      · IZ80939 for AIX for AIX 5.3, TL10 (Shipped in devices.pci.df1000f7.com 5.3.10.5)

      VIOS Requirements
      =================

      These are the equivalent items to install for VIOS prior to installing microcode.

      · VIOS 2.2.1.0 or Fixpack 25

      · VIOS 2.2.0.12-FP-24 SP-02

    • #17785
      Roman
      Участник

      На сервере случайно NetBackup не работает?
      Если конкретнее – не установлена ли там такая вещь, как NetBackup SAN Client (бэкапирование через FC)?

    • #17786
      Anton Bukhman
      Участник

      Я не знаю как посмотреть уровень микрокода fc адаптера.
      Подскажите пожалуйста.

      NetBackup нет, не используем.

    • #17787
      Alex
      Участник

      На VIOS из под рута
      lsmcode -d fcsX

    • #17788
      Anton Bukhman
      Участник

      Хм. Странно как то.
      VIOS1:
      DISPLAY MICROCODE LEVEL 802111
      fcs0 8Gb PCI Express Dual Port FC Adapter (df1000f114108a03)

      The current microcode level for fcs0 is 200307.

      DISPLAY MICROCODE LEVEL 802111
      fcs1 8Gb PCI Express Dual Port FC Adapter (df1000f114108a03)

      The current microcode level for fcs1 is 200307.

      VIOS2:
      DISPLAY MICROCODE LEVEL 802111
      fcs0 8Gb PCI Express Dual Port FC Adapter (df1000f114108a03)

      The current microcode level for fcs0 is 111304.

      DISPLAY MICROCODE LEVEL 802111
      fcs1 8Gb PCI Express Dual Port FC Adapter (df1000f114108a03)

      The current microcode level for fcs1 is 111304.

      Нормально что они отличаются?

    • #17789
      Oldnick
      Участник

      нормально. на одной карте один микрокод, на другой – другой.
      микрокод привязан к порту.

    • #17790
      Alex
      Участник

      Ну чего, обновляйте на VIOS2 до уровня, приведённого sever-ом, посмотрим.
      Пути часто падают?

    • #17791
      Anton Bukhman
      Участник

      По разному.
      Сегодня например опять отваливались.
      Иногда несколько недель нормально работают, иногда по нескольку раз в день отваливаются.

      Хорошо, попробую обновится.

    • #17819
      Anton Bukhman
      Участник

      Посоветовали перерисовать зоны на MDS’ах.
      Так, что-бы в зоне осталось по одному инициатору.
      Эти работы можно провести без даун-тайма, но рекомендуют порты всё таки выключить.
      На выходных скорее всего буду пробовать. После отпишусь.

    • #17820
      Alex
      Участник

      А апдейт микрокода не помог?

      С зонами – шаманство уже. Тем более, вы говорите, что дальше раздела в логах вообще никаких признаков проблемы нет.

      Если у вас есть софтварный саппорт, я бы ещё гиганта попинал на тему “какого рожна, несмотря на закрытый тикет, пути не восстанавливаются”.

    • #17821
      Anton Bukhman
      Участник

      Микрокод еще не обновлял.
      Думаю консолидировать все работы.

      У меня есть еще одна похожая конфинурация :
      NetApp(FAS6080) + IBM p570(четырёх блочный). Так же работают через SAN. Коммутаторы такиеже. Лайн карты отличаются, версии AIX отличаются(на 570 – 5.3), метод аллокации дисков отличается(на 570 через VIOS диски отданы), ну и версия драйвров для NetApp отличается.
      Так вот на 570 всё работает хорошо, и ни каких падений нет.
      А еще там в зонах по 1 инициатору.

      Поддержка. Ну я не знаю. У нас тут есть местная компания, вроде партнёр IBM. Они и оказывают поддержку.Сами решить проблему не смогли, собрали логи, направили в Москву.

      Сервер кстати новый относительно (который p750). Заказали мы его в декабре 2011 г. пришёл он к нам в конце марта 2012. Поддержка сказал что гарантия уже кончилась.

      Есть еще вопрос по параметру num_cmd_elems (lsattr -El fcsx)
      На хорошей конфигурации(p570), этот параметр имеет значение 200.
      На плохой(p750) – физический адаптер на VIOS – параметр 500, виртуальный на Lpar – 200.

      Может (еще и) в этом дело?

    • #17822
      uxTuaHgp
      Участник

      А что, на FC коммутаторах никаких ошибок на портах?

    • #17823
      Michael
      Участник

      Сервер кстати новый относительно (который p750). Заказали мы его в декабре 2011 г. пришёл он к нам в конце марта 2012. Поддержка сказал что гарантия уже кончилась.

      Есть у IBM такая неприятная особенность, как неточное выставление гарантийных дат.
      Если Вы предъявите IBM документы о том, что сервер Вами получен именно в конце марта 2012 г., то сумеете отбить 3 месяца гарантии и сейчас сервер будет числиться на гарантии и Вы сможете открыть на него заявку.

    • #17824
      Anton Bukhman
      Участник

      Александр, как я уже писал выше – нет. никаких ошибок я не вижу.
      Коммутаторы Cisco MDS 9513.
      Я смотрю через show loggi. Там ничего по ним нет.
      Так же смотрел sh zoneset active vsan x. При этом в зоне wwn активен(т.е. залогинен, стоит *)
      А на сервере путь стандартым способом не поднимется(smit mpio). И cfgmgr не помогает. Приходится дефайнить fscsi x / sfwcomm x и потом cfgmgr.

      mih, спасибо за информацию. Я попробую.

    • #17831
      Andriy
      Участник

      зоны то перерисовали? несколько инициаторов в зоне – это ересь, за это по рукам бьют 🙂 за редкими исключениями.

Просмотр 22 веток ответов
  • Для ответа в этой теме необходимо авторизоваться.