Storwize V7000 замена диска


Главная Форумы Storage SAN, Disk & Tape Storwize V7000 замена диска

В этой теме 22 ответа, 7 участников, последнее обновление  Remus 4 года/лет назад.

  • Автор
    Сообщения
  • #18131

    Pavel Alexei
    Участник

    В первый раз помер диск в Storwize (их у нас 4 штуки в городе, первый случай).
    там был hotspare, он автоматически «скушался». Т.е. сейчас он в работе, вместо вышеднего из строя.
    — Error ID : 10097 : A drive is reporting excessive errors
    Error Code : 1685 : Drive fault type 2
    Status Flag : FIXED
    — Error ID : 84200 : Array mdisk has taken a spare member that is not an exact match to array goals
    Error Code : 1692 : Array mdisk is not fully balanced
    Status Flag : UNFIXED : SNMP trap raised
    — Error ID : 988301 : Array mdisk rebuild start
    Error Code :
    — Error ID : 988302 : Array mdisk rebuild finish
    Error Code :

    Но сейчас странное состояние, я не совсем понимаю как правильно дальше поступить.
    Вылезло error 1692 Mdisk is not fully balanced. Hotspare был один в один как «оригинал».
    Согласно мануалу, просто так сейчас заменить диск нельзя.
    http://pic.dhe.ibm.com/infocenter/storwize/ic/topic/com.ibm.storwize.v7000.630.doc/tbrd_rmv24carrier_1948dx.html
    Attention: …Performing the replacement actions without the assistance of the fix procedures results in loss of data or access to data.
    Помниться на каком-то webinare по V3700 акцентировалось, что нельзя, как в случае DS-серии, «просто так» разменять вышедший из строя винт, надо пройти через fix процедуру. Но как она выглядит и как правильно ее пройти, я не нашел 🙁
    Вот screenshots
    https://docs.google.com/file/d/0B2UULgVZiiXSVjcxRkltamZYa2M/edit?usp=sharing
    https://docs.google.com/file/d/0B2UULgVZiiXSZExHUmNBT3pwbTQ/edit?usp=sharing

  • #18133

    Andrew White
    Участник
  • #18134

    Pavel Alexei
    Участник

    проблемы с дивайсами были, всякие, fix-ил, но с винтами не было.
    Интересует что сей месаг может означать, нормальное ли это «поведение» в случае выхода из строя винта и что будет «далее» если пофиксить(из фразы вроде как получается, что система сделает уже его подстоянным mdisk member и уже новый диск надо будет делать hotspare).
    В общем интересует опыт тех, кто уже менял вышедшие из строя винты на storwize.

  • #18135

    Oldnick
    Участник

    на самом деле там все просто. система думает что она очень умная и позволяет себе давать нам советы. у V7000 страная процедура «фикса проблем». Проблема может быть уже устранена, но процедуру фикса можно до конца не проойти. бред какой-то…

    Любой диск можно вынуть, если перевести его в off-line и если он не является членом mdisk. Надо дождаться когда у вас отрибилдится сбойный mdisk и все. Если все диски и mdisk в порядке, тогда все ОК.

    Далее можете запускать процедуры фиксинга…. по идее после нехитрых манируляций можно избавиться от навязчивого предупреждения что у вас не сбалансированы хостпары и т.д.

    если mdisk в порядке, система сама его не будет ломать во время фиска проблемы…
    потом проверьте на всякий случай что у вас для всех raid mdisk выставлен хотя бы 1 хотспар. или больше, если они есть.

  • #18136

    Oleg
    Участник

    давайте отделим мух от котлет

    Array mdisk has taken a spare member that is not an exact match to array goals

    это всего лишь означает, что рейд-группа в одном энклозуре, а хот-спаре из другой дисковой полки
    и такая связка неоптимальна с точки зрения производительности
    поменяете диск — после копибэка эта ошибка уйдет

    Помниться на каком-то webinare по V3700 акцентировалось, что нельзя, как в случае DS-серии, «просто так» разменять вышедший из строя винт, надо пройти через fix процедуру.

    если HDD уже именно умер и вместо него встала hotspare (а по логу выше видно что и ребилд уже прошел), то менять этот диск можно и «просто так»
    но после этого все равно придется выполнить в визарде fix процедуру 🙂
    чтобы сторвайз осознал факт замены диска и выполнил копибэк
    так что логичнее будет начать именно с нее
    ссылку на процедуру тут уже выше привели

  • #18137

    Pavel Alexei
    Участник

    to warrax:

    это всего лишь означает, что рейд-группа в одном энклозуре, а хот-спаре из другой дисковой полки

    Помер соседний от hotspare диск на той же полке. Там вообще только одна полка. hotspare был 1-ый, а помер 2-ой 🙂

    Интересно, лучше сейчас пройти процедуру fix-инга, и или уже после замены сдохшего винта на новый.

  • #18138

    uxTuaHgp
    Участник

    Неужели в sg247938 нет объяснений по фиксу ошибок на Internal Drive?
    В принципе, правильный путь — это запустить Run Fix Procedure , а затем внимательно читать и выполнять рекомендации.
    Система сама по идее должна показать сбойный диск, хотя он и так, наверное подсвечен, сказать когда его вынуть, когда вставить новый, все проверить и пометить ошибку как Fixed.

  • #18139

    Менял я на v7000 уже раза три диск: каждый раз нажимал раз по десять кнопочку next. Зачем такое бешенное количество бесполезных кликов я не понимаю.

  • #18140

    Pavel Alexei
    Участник

    to acmnu:

    Менял я на v7000 уже раза три диск: каждый раз нажимал раз по десять кнопочку next

    Fix-ил error сразу или уже после замены сдохшего на исправный?

  • #18141

    Oldnick
    Участник

    после

  • #18142

    Я фиксил во время замены диска, получается. Т.е. у меня был диск и кнопка «решить проблему». После нажатия на кнопку я получил нечто в духе «1. заказать диск. 2. У меня уже есть диск». Ну а дальше куча экранов: «выньте диск, нажмите некст, вставьте новый, нажмите некст, очень клево что вы его вставили, нажмите некст, я новый диск размечаю, ждите и нажмите некс, я делаю ребилд, ждите, сделал ребилд, нажмите некст и т.д.».

    За название кнопок и процессов я сейчас не поручусь — документацию надо смотреть.

  • #18143

    Помниться на каком-то webinare по V3700 акцентировалось, что нельзя, как в случае DS-серии, «просто так» разменять вышедший из строя винт, надо пройти через fix процедуру. Но как она выглядит и как правильно ее пройти, я не нашел 🙁

    Если просто вытащить и вставить новый действительно ничего не произойдет. Я в первый раз менял: запутался в этих адовых некстах и вставил не тогда, когда надо было (не на том экране) — и диск не опознался 🙂

  • #18144

    Oleg
    Участник

    Там вообще только одна полка. hotspare был 1-ый, а помер 2-ой 🙂

    прикольно 🙂
    одна в смысле только контроллерная?
    а что там за версия firmware? как и какие мдиски в пул добавлены?

    Интересно, лучше сейчас пройти процедуру fix-инга, и или уже после замены сдохшего винта на новый.

    лучше ВО ВРЕМЯ замены диска — для этого она и предназначена
    хотя лично я делаю это обычно уже после физической замены диска — мне так быстрее и удобнее из-за того что в ЦОД-е нет человеческой консоли

  • #18145

    Oldnick
    Участник

    предлагаю записывать замену дисков на камеру и выкладывать на ютуб.
    вот к примеру форматирование 96 дисков в 4 полках EXP24S

  • #18150

    Pavel Alexei
    Участник

    Предлагаю заменить звуковой ряд на «С Новым Годом» от «Дискотеки Авария». Хотя нет, можно сглазить… 🙂

    В ЦОД-е родилась ёлочка,
    А кто ее родил?

  • #18427

    Pavel Alexei
    Участник

    Не поверите, но диск получилось заменить только сегодня. Логистики потеряли первый заказ, долго искали, плюнули и заказали заново.
    С тех пор дивайс перегрузился однажды (были проблемы с питанием в конторе), так что сегодня меня ждал неприятный сюрприз. Может кому пригодится опыт:
    Recommended actions — пустой. System Status показывал винт как «excluded by system». Internal storage показывал винт FAILED. Просто замена диска ничего не дала. Новый винт даже не завелся.
    Запустить получилось только через CLI
    svctask chenclosureslot -exclude no -slot 2 1
    svctask chdrive -use spare 6
    Слот, ID, etc., понятно надо свои указывать.
    Сначало попытался сделать винт как candidate, думал hotspare обратно «вернеться», а нет. Он так и остался как candidate. Сейчас новый винт уже как hotspare, а «старый» остался как mdisk member.
    Вопрос: а как должно было быть, если все было бы сделано вовремя? Произошло был тоже самое: старый диск остался бы mkdisk member? А новый? Мне пришлось его вручную hotspare сделать.

  • #18428

    У нас недавно у одного клиента hp dl360 ждал месяц когда ему диск поменяют. Потом, видать, обиделся и после перезагрузки решил сбойный диск восстановить (его не вынемали) и уложил сервис на смерть.

    Зато диск в некс бизнес дей привезли. А так ходишь, говоришь, что закажите диск, а то плохо будет и как о стенку горох.

  • #18429

    Pavel Alexei
    Участник

    дык, клиент то тут был как раз непричем. Это наши логистики, вместе с IBM-овским сервисом так отработали.
    Заказали. Потом, через несколько недель, когда проснулись что не приехало, стали разбираться. Не нашли. Еще с неделю прошло, пока разбирались. Потом еще раз заказали.
    Это все со слов логистики, что реально было не знаю. Но это уже 3-ий такой случай за полгода.

  • #18430

    Pavel Alexei
    Участник

    Это все «нюансы».
    А меня все таки интересует как все заканчиваеся, когда винт регулярно заменяется. Какой из винтов остается в mdisk и какой hotspare. Я то свой «забил ногами».

  • #18431

    Oleg
    Участник

    Какой из винтов остается в mdisk и какой hotspare.

    если без сюрпризов, то все как обычно — фоновый копибэк на новый, HS снова становится HS
    но бывают и сюрпризы, особенно если не строго визарду следовать 😉
    например, новый диск может получить совсем другой ID и тогда копибэка не будет 🙂

  • #18434

    Pavel Alexei
    Участник

    thx. Бум знать на будущее, чего ожидать. Видимо во время визарда все и происходит. А поскольку удовольствия его созерцать мне не довелось, самую интересную часть я пропустил.
    btw, винт id не поменял.

  • #18442

    У меня тоже во всех случаях hs возвращался назад. Правда была интерестная особенность. При начальной разбивке мы на каждой полке сделали одни hs (последним в ряду), по принципу почему бы и нет. Но после установки новой прошивки (не помню какой), hs хаотично раскидало по полкам. Спросили саппорт — они сказали так и должно быть, типа хотя в документации описана возможность самим задавать hs, но на практике она контроллером последних версий игнорируется.

  • #18845

    Remus
    Участник

Для ответа в этой теме необходимо авторизоваться.