Need help! DS4700 Express model 72


Главная Форумы Storage SAN, Disk & Tape Need help! DS4700 Express model 72

В этой теме 15 ответов, 6 участников, последнее обновление  uxTuaHgp 5 года/лет, 4 мес. назад.

  • Автор
    Сообщения
  • #16507

    Gosha
    Участник

    АААААА!!! СПАСИТЕ!!!!

    На одной из полок из 16 FC-девайсов (146.8 GB/15K E-64x) «вылетело» сразу 12 штук (красные крестики). Физически — расположены подряд.
    Накрылись 3 из 4 продакшен RAID10-массива (были «размазаны» по 3м полкам).

    ВСЁ ПРОПАЛО, ШЕФ! ВСЁ ПРОПАЛО!

    Архивы баз данных якобы есть, но восстанавливать 500+ ГБ из логов — это застрелиться же.

    Собственно вопросы какова может быть причина такого отключения сразу 12 девайсов? И что можно сделать? 4 девайса ведь продолжают трудиться в составе ещё одного RAID10.

  • #16508

    uxTuaHgp
    Участник

    В поддержку уже обратились?

  • #16509

    azar_mike
    Участник

    Сочувствую, но без восстановления из бекапов не обойтись, зато хороший повод задублировать продуктиное СДХ. Например SVC или Enhanced Remote Mirroring.

  • #16510

    Gosha
    Участник

    Если бы у балбесов, которые пришли ко мне с этим, был куплен сервис-пак (или как это у IBM называется) и поддерживалась связь с продавцом (который уже реорганизовался «и не при делах») или с представительством IBM местным — я бы тут SOS не кричал.

    Понятное дело, им придется все документы поднять, всех найти и всё проплатить.

    >>Сочувствую, но без восстановления из бекапов не обойтись
    Я, как полный 0 в железяках, всё-таки питаю надежду, что существует некий способ, например, заменить саму полку, перевоткнуть все винчестера — и всё заведется… :unsure:

    Логика: когда вылетает 1-2 винчестера одновременно — это «сбойные дисковые устройства», а когда одновременно вылетает 12 винчестеров, расположенных подряд в одной полке/корзине — это «сбойная полка».

  • #16511

    Michael
    Участник

    Я, как полный 0 в железяках, всё-таки питаю надежду, что существует некий способ, например, заменить саму полку, перевоткнуть все винчестера — и всё заведется… :unsure:

    Логика: когда вылетает 1-2 винчестера одновременно — это «сбойные дисковые устройства», а когда одновременно вылетает 12 винчестеров, расположенных подряд в одной полке/корзине — это «сбойная полка».

    Вообще-то инфа о массиве, разбиении и пр. хранится на дисках, так что по идее после переноса дисков в новую полку всё должно восстановиться, осталось только купить полку и проверить. Хотя у Вас к 4700, наверное, 810-ые полки подключены, которые сейчас не очень-то легко купить…

  • #16512

    Andriy
    Участник

    а вы не из Киева часом? 🙂 а то я в совпадения мало верю…

  • #16513

    Andriy
    Участник

    Сочувствую, но без восстановления из бекапов не обойтись, зато хороший повод задублировать продуктиное СДХ. Например SVC или Enhanced Remote Mirroring.

    да ладно. если не делалось попыток самостоятельно реанимировать систему — есть вариант данные вытащить.

  • #16514

    Gosha
    Участник

    а вы не из Киева часом? 🙂 а то я в совпадения мало верю…

    🙂
    Шо, информация распространяется разныме каналами? Значит правильно я владельцев железяк застращал, раз засуетились по официальным каналам.

    Не дышу я на железку. НЕ ДЫШУ. 😛

    Трогаю понемногу со стороны aix-а. Архивирую, что архивируется.

  • #16515

    Victor Sedyakin
    Участник

    На одной из полок из 16 FC-девайсов (146.8 GB/15K E-64x) «вылетело» сразу 12 штук (красные крестики). Физически — расположены подряд.
    Накрылись 3 из 4 продакшен RAID10-массива (были «размазаны» по 3м полкам).

    Понимаю, что замечание уже запоздавшее, но как можно было умудриться сконфигурить массивы RAID10 на DS4700 с несколькими полками, чтобы они развалились при отказе только одной полки?! Ведь Storage Manager при создании массивов сам предлагает конфигурации с enclosure loss protection, т.е. располагает все половинки зеркал в разных корзинах + предупреждает, если массив сконфигурирован без учета этого правила. Как-то неправильно эти массивы были «размазаны» по полкам…

  • #16516

    Andriy
    Участник

    такое бывает, если полки докупали позже 🙂

  • #16518

    Gosha
    Участник

    …Понимаю, что замечание уже запоздавшее, но как можно было умудриться сконфигурить массивы RAID10 на DS4700 с несколькими полками, чтобы они развалились при отказе только одной полки?!…

    В данном конкретном случае правильное замечание должно было бы звучать не «как можно было сконфигурировать» (покупалось всё скопом, а как конфигурировалось — я не знаю), а «как можно было так эксплуатировать, что такое произошло».

    Развитие ситуации:
    1. После перегрузки всего железа через некоторое время «внезапно» ВСЁ заработало (при наличии красных крестов на этих 12 винчестерах);
    2. Я срочно начал сливать БОЛЕЕ удобные для последующего восстановления архивы (а не бинарную дуру в 500ГБ), предупредив балбесов «НИЧЕГО НЕ ТРОГАЙТЕ»;
    3. Когда я слил примерно 70%, мне звонят и сообщают «у нас тут СУПЕР-СПЕЦИАЛИСТ РЯДОМ ПРОЕЗЖАЛ И ВСЁ ВОССТАНОВИЛ». Гляжу в стораж-манагер: магическим (для меня) образом красных крестиков больше нет. ТОЛЬКО И БАЗЫ У МЕНЯ ОТВАЛИЛАСЬ с ошибками «read timeout». И LPAR-ы заглючили (1 из 2х промышленных завис). После перегрузки через hmc страшно заглючил AIX в главном LPAR. Пока работал — успел увидеть, что появились битые файлы в операционке (в частности, заметил, что /etc/services, хранящий единственную нужную от ОС строку для СУБД, наполнен наполовину кракозяблами). Через 10 минут AIX окончательно утратил связь с реальностью.

    В общем, всё просто зашибись, блин.

  • #16519

    azar_mike
    Участник

    Бардак …

  • #16521

    uxTuaHgp
    Участник

    супер-специалисту уже яйца дверью защемили, надеюсь?

  • #16522

    Gosha
    Участник

    супер-специалисту уже яйца дверью защемили, надеюсь?

    Пусть делают что хотят со своими «супер-специалистами».
    В моём договоре ни строки про мою ответственность за работоспособность железа, операционок и даже СУБД. У меня только частичная ответственность за работоспособность прикладных баз и полная за моё ПО.
    Предоставят работающее железо и ОС — буду пытаться восстанавливаться из бинарного архива.
    Если и архив окажется в некондиции (вероятность такая есть всегда — ведь выковыривался он уже после начала сбоев, хоть и с несбойной полки с отдельным RAID на «медленных» девайсах) — будет у них мощный мотив дублировать промышленный СХД.

  • #16523

    Andriy
    Участник

    супер-специалисту уже яйца дверью защемили, надеюсь?

    скажем так, господа — будучи не в теме, про яйца лучше не писать 🙂

    ЗЫ: нет, это не я поднимал систему, я просто знаю ситуацию.

  • #16524

    uxTuaHgp
    Участник

    смайлик забыл поставить 🙂

    Но вообще то как-то странно все не организованно: один переписывает, другой табуретку из под ног вытаскивает…

Для ответа в этой теме необходимо авторизоваться.