прошу помощи – не могу активировать volume group

Главная Форумы POWER Systems AIX/Hardware прошу помощи – не могу активировать volume group

  • В этой теме 18 ответов, 4 участника, последнее обновление 9 лет назад сделано Alex.
Просмотр 18 веток ответов
  • Автор
    Сообщения
    • #13151
      doperst
      Участник

      Доброго времени суток!

      Уважаемые форумчане, прошу вашей помощи.

      Eсть сервер IBM 9113-550, работающий под AIX 5.3.
      Сервер подключен к дисковому массиву DS4300, на котором создан
      RAID5. На RAID5 нарезаны логические диски, 5 из них используются этим сервером,
      остальные – другими машинами.
      Сегодня днем сервер самопроизвольно перегрузился.
      После перезагрузки менеджер дискового массива показал, что один из жестких дисков в
      массиве перешел в состояние Impending failure, при этом сконфигурированный Hotspare диск не
      подцепился. из 5 VG после перезагрузки сервера активировались только две, то есть :

      # lsvg
      rootvg
      backvg
      vgu2
      vgu3
      vgu6
      # lsvg -o
      backvg
      rootvg
      #

      при попытке сделать varyonvg вручную получил ошибку:
      # varyonvg vgu2
      0516-013 varyonvg: The volume group cannot be varied on because
      there are no good copies of the descriptor area.

      Сбойнувший диск был вручную переведен в состояние Fail из Storage Manager-a
      (Advanced – Recovery – Fail Drive), после чего Hotspare диск подцепился и массив перестроился.
      Сервер был перезагружен еще раз, ситуация с VG не изменилась.

      Может быть кто-то знает, как это можно исправить ?
      Нужно восстановить доступ к vgu3 и vgu6.
      На vgu2 можно пробовать что-то делать, данные на ней некритичны.
      Если нужно добавить какую-либо диагностику, могу выкладывать ее на форум немедленно.

      Очень прошу помочь, поскольку в AIX разбираюсь слабо.

    • #13152
      andrewk
      Участник

      для начала
      lsvg -p vgu2

      затем для каждого диска:
      lquerypv -h /dev/hdiskXX -At

      и

      readvgda /dev/hdiskXX

    • #13153
      doperst
      Участник

      Первая команда выдала ошибку :
      # lsvg -p vgu2
      0516-010 : Volume group must be varied on; use varyonvg command.

      попробовал вот так :

      # lspv | grep vgu2
      hdisk3 00ce389b6ed2bee8 vgu2

      Дальше : lquerypv не вернула ничего

      # lquerypv -h /dev/hdisk3 -At
      #

      Следующая команда
      # readvgda /dev/hdisk3
      выполняется уже минут 10, пока ничего не возвращает.

    • #13154
      andrewk
      Участник

      errpt?

    • #13155
      doperst
      Участник

      readvgda отработала спустя примерно минут 10

      # readvgda /dev/hdisk3
      Error while reading: -1
      Error while doing llseek: -1

      errpt выдала :

      IDENTIFIER TIMESTAMP T C RESOURCE_NAME DESCRIPTION
      0148FAED 0914224811 I H dac2 SINGLE CONTROLLER RESTARTED
      C86ACB7E 0914224811 I H hdisk3 ARRAY CONFIGURATION CHANGED
      0148FAED 0914224811 I H dac2 SINGLE CONTROLLER RESTARTED
      C86ACB7E 0914224811 I H hdisk3 ARRAY CONFIGURATION CHANGED
      0148FAED 0914224811 I H dac2 SINGLE CONTROLLER RESTARTED
      C86ACB7E 0914224711 I H hdisk3 ARRAY CONFIGURATION CHANGED
      0148FAED 0914224711 I H dac2 SINGLE CONTROLLER RESTARTED
      C86ACB7E 0914224711 I H hdisk3 ARRAY CONFIGURATION CHANGED
      0148FAED 0914224711 I H dac2 SINGLE CONTROLLER RESTARTED
      C86ACB7E 0914224711 I H hdisk3 ARRAY CONFIGURATION CHANGED

      дальше вывод повторяется

    • #13156
      andrewk
      Участник

      значит hdisk3 в системе не виден и восстанавливать vgu2 бесполезно, пока не будет виден диск. что с остальными VG? о них какую-то информацию получить можно?

    • #13157
      andrewk
      Участник

      mpio_get_config -Av

    • #13158
      doperst
      Участник

      # lsvg -p rootvg
      rootvg:
      PV_NAME PV STATE TOTAL PPs FREE PPs FREE DISTRIBUTION
      hdisk1 active 546 374 109..47..00..109..109
      # lsvg -p backvg
      backvg:
      PV_NAME PV STATE TOTAL PPs FREE PPs FREE DISTRIBUTION
      hdisk0 active 273 160 35..00..16..54..55
      #lsvg -p vgu3
      0516-010 : Volume group must be varied on; use varyonvg command.
      # lsvg -p vgu6
      0516-010 : Volume group must be varied on; use varyonvg command.
      # mpio_get_config -Av
      #

      последняя команда ничего не вернула

    • #13159
      andrewk
      Участник

      а у Вас какой TL? может у Вас еще до сих пор надо fget_config -Av?

    • #13160
      doperst
      Участник

      если я правильно понимаю – TL 7 :

      # oslevel -q -s
      Known Service Packs
      ——————-
      5370-00-00

      # fget_config -Av

      —dar0—

      User array name = ‘DS4300_1’
      dac2 ACTIVE dacNONE ACTIVE

      Disk DAC LUN Logical Drive
      utm 31
      hdisk2 dac2 0 sap1
      hdisk3 dac2 1 2
      hdisk4 dac2 2 3
      hdisk5 dac2 3 4
      hdisk6 dac2 4 sap2
      hdisk7 dac2 5 6
      hdisk10 dac2 8 40_3
      hdisk12 dac2 10 hacmp1_10
      hdisk13 dac2 11 hacmp2_100
      hdisk14 dac2 12 40_7
      hdisk15 dac2 13 aven_oravg_256_2
      hdisk16 dac2 14 aven_oravg_256_3
      hdisk17 dac2 15 256_3
      hdisk18 dac2 16 256_4
      hdisk19 dac2 17 256_5
      hdisk20 dac2 18 flst
      hdisk21 dac2 19 asm_rac_15
      hdisk22 dac2 20 sap3
      hdisk23 dac2 21 sap4
      hdisk24 dac2 22 vcs_oracle
      hdisk26 dac2 24 vcs_disk1
      hdisk27 dac2 25 sap5
      hdisk28 dac2 26 samson_10
      hdisk29 dac2 6 aven_oravg_40_1
      hdisk30 dac2 7 aven_oravg_256_1
      hdisk31 dac2 9 lower_oravg
      hdisk32 dac2 27 BACKUP
      hdisk33 dac2 23 vcs_oebs
      hdisk34 dac2 28 nim_iso_vg
      hdisk35 dac2 29 nim_lpp_vg
      hdisk37 dac2 30 R415_1
      hdisk38 dac2 32 1

    • #13161
      andrewk
      Участник

      для пущей убедительности еще lsdev | grep “da[rc]”

    • #13162
      doperst
      Участник

      # lsdev | grep “da[rc]”
      dac0 Defined 04-08-01 1722-600 (600) Disk Array Controller
      dac1 Defined 05-08-01 1722-600 (600) Disk Array Controller
      dac2 Available 04-08-01 1722-600 (600) Disk Array Controller
      dac3 Defined 05-08-01 1722-600 (600) Disk Array Controller
      dac4 Available 05-08-01 1722-600 (600) Disk Array Controller
      dar0 Available 1722-600 (600) Disk Array Router
      en0 Available 07-08 Standard Ethernet Network Interface
      en1 Defined 07-09 Standard Ethernet Network Interface

    • #13163
      andrewk
      Участник

      у Вас, насколько я могу судить, проблемы с зонингом. Из-за чего – не знаю. В первую очередь необходимо решить их, затем – rmdev -Rdl для всех hdisk’ов, dac’ов и dar’ов и снова сfgmgr. Поскольку это потенциально может привести к потере данных, то Вам необходимо открывать PMR в IBM, чтобы они подтвердили диагноз, либо дождитесь утра – утром появятся люди, которые разбираются в DS4k лучше меня, возможно они меня поправят.

    • #13164
      doperst
      Участник

      к сожалению, у меня есть время только до 4 утра.
      после этого момента нужно начинать восстанавливаться с бэкапа с потерей сегодняшнего дня работы.
      Видимо, именно так и придется делать, и начинать можно уже сейчас.

      Спасибо Вам за помощь!

    • #13165
      andrewk
      Участник

      если только до 4х утра – PMR в IBM, Severity 1, и с контрольными звонками в голову каждые 30 мин дежурному оператору.

    • #13274
      Alex
      Участник

      В копилку общей мудрости – нормально там всё с зонингом, контроллеры то (оба) ему приехали и dar устройство тоже. Те, что defined – остатки старогое, ничего страшного. А вот то, что с приехавщего диска (hdisk3) невозможно что-то прочесть – это массив пытается отребилдиться и будет пилить луны до второго пришествия (я такую ситуацию наблюдал), думаю, автор тут просто ошибся, что на массиве всё закончилось.

      Так что моё мнение – вся проблема была непосредственно с массивом.

      Странно, что я тут почему-то не вижу верующих в четырёхтысячную серию авторства LSI, у которых она “стабильно работает несколько лет”, в разделе по стораджу их достаточное количество.

    • #13276
      andrewk
      Участник

      # fget_config -Av

      —dar0—

      User array name = ‘DS4300_1’
      dac2 ACTIVE dacNONE ACTIVE

      копилка общей мудрости утверждает, что при наличии dacNONE есть все-таки проблемы с зонингом (или с тем, что зонинг был изменен, а RDAC этого не понял). Хотя, конечно, проблемы с массивом я бы тоже исключать не стал бы.

    • #13279
      uxTuaHgp
      Участник

      угу, обычно лечится удалением всех hdisk, всех dar и всех dac
      однако иногда не помогает и тогда поддержка рекомендовала чистить ODM…

    • #13281
      Alex
      Участник

      dac2 ACTIVE dacNONE ACTIVE

      Это я просмотрел, факт, однако dac2 жив, а через него можно выдернуть любой лун с массива, независимо от preffered ownership, так что остаюсь при своём мнении – проблема с массивом.

      Особенно умиляет у четырёхтысячника постоянный рестарт контроллера (слава индусам, писавшим микрокод к массиву).

      Жаль, что автор, похоже, не вернётся рассказать нам, в чём именно было дело 😉

Просмотр 18 веток ответов
  • Для ответа в этой теме необходимо авторизоваться.