Опять сбой в сбере.

Главная Форумы Курилка Обо всём Опять сбой в сбере.

  • В этой теме 118 ответов, 20 участников, последнее обновление 4 года назад сделано barmaley.
Просмотр 118 веток ответов
  • Автор
    Сообщения
    • #16108
      Sever
      Участник
    • #16113
      Oldnick
      Участник

      c таким бюджетом IT сбоев не должно быть в принципе.

    • #16116
      andrewk
      Участник

      размер бюджета не означает сам по себе наличие специалистов.

    • #16118
      uxTuaHgp
      Участник

      Наличие специалистов не исключает вероятности какого-либо сбоя.
      Чем сложнее инфраструктура, тем выше вероятность сбоя и тем сложнее диагностировать и устранять проблемы.

    • #16120
      Oldnick
      Участник

      не согласен. просто нет мотивации работать без сбоев. имея соответсвующий бюджет можно создать высоконадежную систему которая способна работать без сбоев.

    • #16121
      andrewk
      Участник

      не исключает, но значительно уменьшает.

    • #16137
      Michael
      Участник
    • #16141
      Sever
      Участник

      “По какой-то причине (пока не понятно по какой)…”

      Подождем результатов изысканий. Может в сам деле опубликуют.

    • #16142

      В обсуждения к новости на cnews сплошной бред. Насколько я знаю в Сбербанке на этой системе 24/7 сидят представители oracle – врятли они прохлопали что-то тривиальное типа переполнения архивных логов.

    • #16143
      Sever
      Участник

      IMHO с большой вероятностью ктоньть гденьть чтонть изменил или “запустил”. В пятницу в 17 часов самое подходящее время для таких инцидентов.

    • #16160
      uxTuaHgp
      Участник

      [url url=http://safe.cnews.ru/top/2012/07/09/itdirektor_sberbanka_raskryl_prichiny_masshtabnogo_sboya_495716]Зря они взяли диски от “известного производителя принтеров” [/url] 😉

      “И AIX не виноват!” :laugh:

      Не увидел про AIX не виноват.
      А HP не делает сама этерпрайз стораджи – это же Hitachi VSP у них перелицованая.

    • #16161
      uxTuaHgp
      Участник

      Тривиальные версии напрашиваются, но я не склонен считать админов ЦА СБРФ, а вместе с ними инженеров Крока и Оралка круглыми идиотами.
      Если проблему не удалось решить в течение 1 часа, значит это действительно неординарная проблема.
      Про то что до сих пор не огласили причины я молчу – ее могут не огласить никогда по понятным причинам.

      Комично выглядят попытки Орлова за счет интернет-пистаполов разобрать нахаляву логи и найти причины обрушения базы.

    • #16168
      andrewk
      Участник

      [quote quote="mih" post=15396][url url=http://safe.cnews.ru/top/2012/07/09/itdirektor_sberbanka_raskryl_prichiny_masshtabnogo_sboya_495716]Зря они взяли диски от “известного производителя принтеров” [/url] 😉

      “И AIX не виноват!” :laugh:

      Не увидел про AIX не виноват.
      А HP не делает сама этерпрайз стораджи – это же Hitachi VSP у них перелицованая.[/quote]

      там в коментах про AIX 7 на Power795 сказано (вот вам и про специалистов – кто ж в здравом уме поставил AIX7 на критичную систему?). А HP еще делает такое г., как EVA – это совсем не Hitachi.

    • #16171
      Andriy
      Участник

      А HP еще делает такое г., как EVA – это совсем не Hitachi.

      дика сомневаюсь, что у них что-то на еве лежало 🙂 она просто не вытянула бы их потенциальных нагрузок. разве что сотни ев, и на уровне AIX/Oracle размазывать… но это даже для вашего сбера – слишком

    • #16172
      Sever
      Участник

      Тривиальные версии напрашиваются, но я не склонен считать админов ЦА СБРФ, а вместе с ними инженеров Крока и Оралка круглыми идиотами.

      Помимо всяческих админов на таких системах пасется функциональное сопровождение процессинга, всяческие доилки в BI системы и сонм “аналитиков” с возможностью запуска любого SQL скрипта. Если присутствие первых оправдано, то последние чаще всего и создают подобные ситуации.

    • #16176
      uxTuaHgp
      Участник

      там в коментах про AIX 7 на Power795 сказано (вот вам и про специалистов – кто ж в здравом уме поставил AIX7 на критичную систему?). А HP еще делает такое г., как EVA – это совсем не Hitachi.

      Согласен про AIX7.
      С радостью вернулся бы на 5.3, сколько горя хапнули на 6.1…
      EVA отнюдь не энтерпрайз. Сильно сомневаюсь, что с 795 сопрягли систему среднего уровня.
      И потом, насколько мне известно, всем EVA-м уже объявили EOL.
      Если учесть еще то, что у них геокластер, то наверняка СХД должна неплохо уметь репликацию, причем без ощутимого падения производительности.
      В общем болтунов толпа собралась на цньюз в каментах…

    • #16177
      uxTuaHgp
      Участник

      Помимо всяческих админов на таких системах пасется функциональное сопровождение процессинга, всяческие доилки в BI системы и сонм “аналитиков” с возможностью запуска любого SQL скрипта. Если присутствие первых оправдано, то последние чаще всего и создают подобные ситуации.

      Вот я и говорю, что у меня есть идиотские идеи по поводу того, что например какая-то транзакция открылась и, возможно даже ничего не делая, висела в течение нескольких часов мешая очистить/заархивировать REDO.
      Бывало у меня в практике такое, кстати: прикладники залезают PL/SQL Developer-ом в табличку в режиме редактирования данных и забывают про это окно.
      Правда в продуктиве такого быть не может в принципе…
      В таком случае достаточно было добавить REDO логов и потом найти долгоиграющую транзакцию и отстрелить ее.
      Я сильно сомневаюсь, что их админы до этого не доперли бы.
      Опять таки подобные вещи не влекут разрушения базы данных, так что скорее всего таки они схватили либо известный уже баг либо какой-то доселе неизвестный.

    • #16179
      yota
      Участник

      Вот я и говорю, что у меня есть идиотские идеи по поводу того, что например какая-то транзакция открылась и, возможно даже ничего не делая, висела в течение нескольких часов мешая очистить/заархивировать REDO.

      С каких это пор незакрытая транзакция может каким-либо образом помешать архивации REDO логов?? :blink:

    • #16180
      uxTuaHgp
      Участник

      Значит я соврамши.
      Тем более все говорит за то, что это баг оракла.

    • #16187
      Sever
      Участник

      из недр интернета…

      “После сбоя Сбербанк мобилизовал глобальных партнеров — поставщиков IT-систем — IBM, Oracle, Hewlett-Packard, Symantec. Это первый подобный случай. В субботу и воскресенье более 250 специалистов этих компаний и около 30 человек в Сбербанке разбирали ситуацию, чтобы понять причину сбоя. Сам Орловский в выходные с работы не уходил…”

    • #16188
      Andriy
      Участник

      а зачем 250???

    • #16190
      Sever
      Участник

      Анекдот про бизнес-стратегии

      Жила-была одна команда гребцов. И решила она посоревноваться с другой командой гребцов. В каждую команду вошло по 8 человек.

      Обе команды усиленно тренировались и ко дню соревнования были в одинаковой кондиции. Но в итоге команда соперников обошла их на километр. Настроение у проигравшей команды было хуже некуда. Высшее руководство задумалось. И решило нанять группу аналитиков, чтобы те оценили ситуацию и дали рекомендации, как выиграть в следующий раз. После нескольких недель напряженного умственного труда аналитики выдали ответ на вопрос, почему команда проиграла. Оказалось, что в выигравшей команде было семеро гребцов и один капитан. В то время, как в проигравшей было 7 капитанов и всего один гребец. Высшее руководство хлопнуло себя по лбу и решило нанять консалтинговую компанию для проведения репозиционирования. Консультанты решили, что в команде было слишком много капитанов и слишком мало гребцов и рекомендовали перестроить команду. Теперь в команде стало всего четыре капитана, два менеджера, один топ-менеджер и один гребец. С гребцом консультанты посоветовали активно работать, дабы мотивировать его на достижение победы. На следующих соревнованиях команда соперников ушла вперед на два километра.
      Высшее руководство уволило гребца, так как оказалось недовольно результатами его работы. Все остальные члены команды получили бонусы за достижение высоких результатов в процессе мотивации.
      Аналитики снова сели за расчеты и выдали причину поражения: «Стратегия была хорошая, мотивация – Оk, менеджеры высшего класса, а вот средства реализации идеи были плохие».
      К следующим соревнованиям проигравшая команда проектирует новую лодку…

    • #16191
      andrewk
      Участник

      Комитет больше 21 человека не работает. Закон Паркинсона.

    • #16192
      Sever
      Участник

      IBM отвечает за 795ый сервер и ОС (AIX);
      Oracle за Oracle;
      Hewlett-Packard за дисковые системы;
      Semantec – за бекапирование/восстановление;

      Каждый отчитывается по своей зоне ответственности…

    • #16193
      Andriy
      Участник

      сдается мне, как-то так:

    • #16198
      azar_mike
      Участник

      Сейчас в Сбербанк онлайн пытался счет оплатить, получил:

      ОШИБКА РЕГИСТРАЦИИ ЗАПРОСА BillingPayPrepRq В ЦПФЛ! ORA-01653: невозможно увеличить таблицу NPLAT.KSH_DR до 8192 в разделе NPLAT_TBL ОШИБКА РЕГИСТРАЦИИ ОТВЕТА BillingPayPrepRq В ЦПФЛ! ORA-01653: невозможно увеличить таблицу NPLAT.KSH_DR до 8192 в разделе NPLAT_TBL

      )))))))))))))))))))))

    • #16200
      Sever
      Участник

      Пробил в гугле аббревиатуру ЦПФЛ уважаемого банка – “Централизованные Платежи Физических Лиц”

      По оракловой диагностике : This error does not necessarily indicate whether or not you have enough space in the tablespace, it merely indicates that Oracle could not find a large enough area of free contiguous space in which to fit the next extent.

    • #16201
      uxTuaHgp
      Участник

      По идее, если у него нет достаточно большого куска под экстент, то оракл должен расширить файлы данных, если конечно включено авторасширение.
      Если не включено, значит мониторинг состояния БД и дисциплина админов не на высоте.

    • #16202
      andrewk
      Участник

      снова к вопросу о специалистах? 😉

    • #16203
      uxTuaHgp
      Участник

      Ну о чем собственно говорить, когда зарплата у них напоминает лотерею: 1/3 оклад, а остальное как фишка ляжет…
      Студенты и женщины замужем могут так жить, а мужики, которые несут груз ответственности за семью – нет.

    • #16204
      pre
      Участник

      Сейчас в Сбербанк онлайн пытался счет оплатить, получил:

      ОШИБКА РЕГИСТРАЦИИ ЗАПРОСА BillingPayPrepRq В ЦПФЛ! ORA-01653: невозможно увеличить таблицу NPLAT.KSH_DR до 8192 в разделе NPLAT_TBL ОШИБКА РЕГИСТРАЦИИ ОТВЕТА BillingPayPrepRq В ЦПФЛ! ORA-01653: невозможно увеличить таблицу NPLAT.KSH_DR до 8192 в разделе NPLAT_TBL

      )))))))))))))))))))))

      Диагностические сообщения в интерфейсе для конечного пользователя? Может там ещё всё бежит из под пользователя NPLAT и предусмотрено поле ввода команд sql+?

    • #16205
      uxTuaHgp
      Участник

      Действительно зарождаются мыслишки, а нет ли возможности иньекцию сделать?

    • #16206
      Demetrio
      Участник

      То, что был сбой – это бывает иногда, ничто не дает 100% гарантии работоспособности, но судя по диагностике сообщений у них получается какая-то доморощенная двузвенная архитектура. Неужели сбер не может позволить купить дорогое и проверенное решение.

    • #16207
      uxTuaHgp
      Участник

      Тут все перемешали.
      Онлайн – отдельный продукт.
      Сбой был на процессинге, там Way4 – это брэнд мировой.

    • #16208
      Albert Maksimov
      Участник

      Сегодня на hh Сбер открыл две вакансии:
      -Главный инженер – руководитель группы (Oracle DBA)
      -Ведущий инженер (Oracle DBA)

      вчера одну:
      -Администратор СУБД Oracle

      К чему бы это? :laugh:

    • #16211
      andrewk
      Участник

      видимо уже нашли козла отпущения

    • #16212
      Andriy
      Участник

      учитывая масштабы – скорее козлов

    • #16214
      Sever
      Участник
    • #16215
      Oldnick
      Участник

      конечно, все системы ведь меняют….
      в тесте такие сбои не съэмулировать 🙂

    • #16216
      uxTuaHgp
      Участник

      Получается, что таки имел место какой-то нелепый ляп, раз Сбер собрася сменить сразу всю команду ДБА.
      На мой взгляд надо увольнять директора кадровиков, потому что при текущем положении дел с вербовкой и оплатой труда кардинально ничего улучшить не удастся.

    • #16234
      Anton Bukhman
      Участник

      http://www.banki.ru/news/lenta/?id=3945012
      Новая операционная система на базе Oracle во всём виновата

    • #16265
      Demetrio
      Участник

      А кто-нить разъяснит что такое новая ОС на базе oracle?

    • #16268

      Это когда системный администратор изнасиловал журналиста 😀 http://mad-crack.livejournal.com/108254.html

    • #16272
      Michael
      Участник

      А кто-нить разъяснит что такое новая ОС на базе oracle?

      Канешна жэ, Oracle Linux!!! :silly:

    • #16279
      Anton Bukhman
      Участник

      Оговорился похоже.
      Но меня шеф попросил проверить.
      У нас тоже IBM+Oracle+Way4

    • #16281
      andrewk
      Участник

      Ezz, а я тут со своим бывшим шефом на эту тему пообщался. И мы сошлись во мнении, что просто надо все регулярно и полностью тестировать. Так что лучше протестируйте свое DR/HA-решение.

    • #16284
      Anton Bukhman
      Участник

      Это точно.
      Наверное шеф и сам такое предложит:)

    • #16335
      Sever
      Участник

      Раз уж есть спецы знакомые с WAY4, то прошу вас ответить на вопрос – что в техническом и организационном плане для этой системы означит фраза “разделить процессинг и биллинг”?

    • #16341
      DaemoN-ekb
      Участник

      Если у кого есть желание сбербанк предлагает поразгадывать причину сбоя совместно ТУТ

    • #16803

      Тут ходят слухи, что технического директора за этот сбой уволили.

    • #16804
      andrewk
      Участник

      и начали стопками набирать специалистов…

    • #16805
      azar_mike
      Участник

      Только ценник заниженный, еще знаю, что всему департаменту it на несколько месяцев премию срубили, даже тем отделам, которые далеко от db, а как извесно ЗП с Сбере 50/50 оклад/премия, т.е. еще и заработали на собственном сбое… )

    • #16806
      uxTuaHgp
      Участник

      и начали стопками набирать специалистов…

      А толку?
      Шило на мыло меняют: ленятся даже нормальные описания вакансий написать и зарплату жмут как и прежде.
      Понимание не пришло – просто тупо отомстили стрелочникам.

    • #16807
      uxTuaHgp
      Участник

      а как извесно ЗП с Сбере 50/50 оклад/премия, т.е. еще и заработали на собственном сбое… )

      Я бы сказал 30/70

    • #17531
      Sever
      Участник

      Сбер решил пойти по пути Альфы и увеличивает объем памяти на системах с 2х до 4х Тб.

      http://www.komtender.ru/tender/5747215

      Непонятно одно, почему сразу не купили 8Тб.

    • #17532
      Demetrio
      Участник

      иногда проще шуруп забить

    • #17533
      Sever
      Участник

      Теперь нужно в двух серверах по очереди вынимать все 16 буков для установки новых диммов.
      То еще удовольствие.
      Причем, планируется не добавление, а именно замена – старую память вынимают и выкидывают, а новую память большим номиналом ставят. Это ваще пипец.

    • #17534
      Oldnick
      Участник

      Сбер решил пойти по пути Альфы и увеличивает объем памяти на системах с 2х до 4х Тб.
      http://www.komtender.ru/tender/5747215

      странный документ. реально планки стоят втрое больше, активация в 2,5 раза выше, чем в табличке.
      если предположить что IBM для сбера выкатило спец. предложение по апгрейду – полная замена планок с учетом стоимости старых, тогда мы видим в документе – фактическую цену как результат апгрейда. Но все равно, как-то дешево в документе….
      я думаю фикция. такие цены никто не предложит, только если в убыток $1 млн.
      :laugh:

      100GB активация стоит $44K
      1 комплект 8219 0/512GB стоит $110K

    • #17535
      Sever
      Участник

      Имхо цены в документе уже с учетом всех скидок.
      IBM сгенеровал коды активации на память в конце октября. То есть реально они это купили за эти деньги. Плюс 12 тысяч за работу локального сервиса, который будет над этим тра…ся.

      Еще есть вариант, что реально закупили памяти в два раза меньше и просто добавят этот объем к имевшемуся ранее.

    • #17536
      Oldnick
      Участник

      если даже с учетом скидок, все равно не канает цена. слишком большая разница.
      ощущение что куплено по старым ценам.

    • #17537
      andrewk
      Участник

      цена в 3 раза выше – значит, IBM предоставил Сберу скидку 67%. Что в этом необычного? Я буду удивлен, если кто-то из больших клиентов скажет мне, что у него нет 50% скидки от IBM (особенно на такое оборудование, как 795)

    • #17538
      Sever
      Участник

      По любому покупка по таким ценам для Сбера является плюсом.

    • #17667
      Sever
      Участник
    • #17669
      uxTuaHgp
      Участник

      Собственнолюди то все новые относительно, не стажисты доморощенные, просто столкнулись с такими масштабами впервые.

    • #17838
      DaemoN-ekb
      Участник

      Вот разобрались вроде с проблемой. подробнее

    • #17839
      Demetrio
      Участник

      не верю что с лету нельзя было обнаружить данную проблему. Это же настолько на поверхности лежит.
      Жду след. сбоя

    • #17842
      Alex
      Участник

      Вот разобрались вроде с проблемой.

      Это другая проблема.

      Первая случилась в разгар рабочего дня. Причём по итогам (набор кучи специалистов в yammer, обещание всем выдать логи на разбор) – пшик, а значит ошибка настолько тривиальна, что результаты даже стыдно показывать, засмеют.

    • #17843
      uxTuaHgp
      Участник

      Похоже наконец то дошли до того, что на больших Power7 нужно отключать SMT.

      Мы с подобным столкнулись 1.5 года назад при переходе на новое железо, и я заподозрил, что все дело в огромной конкуренции aioserver-ов, которых при включенном SMT невероятное количество.

      Если у них 795 в полной набивке, то по умолчанию процессов aioserver минимум 3072 и все пытаются чего-то добиться от СХД…
      Подозреваю, что при активной нагрузке со стороны Oracle возникает шторм своеобразный: система порождает до 30 aioserver процессов на процессор со всеми вытекающими.

    • #17845
      DaemoN-ekb
      Участник

      Видимо сильно попили что-то и не все сделали или просто недодумали все, но потихоньку все разбегаются тут

    • #17846

      Может просто ввод-вывод отладить, чем отключать SMT?

    • #17847

      Точнее это естественно не просто, но отключать SMT выглядит глупостью.

    • #17848
      uxTuaHgp
      Участник

      Угу, но параметры ioo
      aio_maxservers = 30
      aio_minservers = 3
      restricted
      Их изменение рекомендуется только с участием поддержки.
      Поддержка ничего в снэпах не находила, даже на 3-м уровне в Техасе.

      Короче отключение SMT проблему решило.
      Учитывая то, что SMT дает выигрыш не в 4 раза и далеко не на любых задачах – отключение его не такая уж глупость.

    • #17849
      Alex
      Участник

      I/O всё-равно потом сериализуется, жонглировать aioserver-ами смысла нет.

      Т.е. я верю, что это решило проблему, но выглядит странно, скорее всего какая-нибудь хитрая проблема с firmware в районе именно SMT.

      Потому что уменьшить число процессов всего в два раза – ну не показательно, ладно бы на порядок.

    • #17850
      Alex
      Участник

      Видимо сильно попили что-то и не все сделали или просто недодумали все, но потихоньку все разбегаются [url url=http://biz.cnews.ru/news/top/index.shtml?2013/02/20/519730]тут[/url]

      Да не разбегаются, просто кто-то начал разгребать эти конюшни. Ну и бюджет в нынешнем году совсем не то, что в прошлых, некоторые, видимо, не видят в этом для себя перспектив 😉

      Я в целом понимаю, почему у них случаются факапы. Зоопарк систем и многовековые наслоения одного на другое, которые боятся тронуть, чтобы всё не развалилось.

    • #17851
      uxTuaHgp
      Участник

      Потому что уменьшить число процессов всего в два раза – ну не показательно, ладно бы на порядок.

      Не в 2, а в 4.
      Разница есть.
      Если тебя в воду бросить и прицепить на пояс 2 кг или 8 кг будет разница? 🙂

    • #17852
      Sever
      Участник

      Не забывайте, что сначала вы заплатили за это (POWER7) деньги, а потом пришли к выводу, что это “вредно”.

    • #17853
      Alex
      Участник

      АА, P7 же, пропустил.

      А что, в момент проблем (или непосредственно перед ней) прямо было видно, что все aioserver-а запустлись полностью утилизированы? Ну не верю, что дело в них.

    • #17854

      Не забывайте, что сначала вы заплатили за это (POWER7) деньги, а потом пришли к выводу, что это “вредно”.

      Платили не они, скорее всего 🙂

    • #17855
      uxTuaHgp
      Участник

      Не забывайте, что сначала вы заплатили за это (POWER7) деньги, а потом пришли к выводу, что это “вредно”.

      Ну мы же не отключали 48 из 64 ядер, мы просто отключили одну из фич P7, которая приносит весьма иллюзорную пользу.

    • #17856
      uxTuaHgp
      Участник

      Ну и кстати, я только версию предложил, так как мы в это утыкались, а в Сбере ситуация похожая.

    • #17857
      uxTuaHgp
      Участник

      АА, P7 же, пропустил.

      А что, в момент проблем (или непосредственно перед ней) прямо было видно, что все aioserver-а запустлись полностью утилизированы? Ну не верю, что дело в них.

      Я видел загруженность дисков, огромное кол-во aioserver процессов, огромный кернел тайм и падения оракла, если мне не изменяет память, из-за невозможности записать в контрольники.

      Я отключил SMT по наитию и это помогло.

    • #17858
      roman
      Участник

      А iowait вы видели? При большой загруженности дисков aio абсолютно бесполезно. Более того из-за большого количества aioserver процессов вы и можете получить огромный кернел тайм и context switches. Отключив SMT, вы просто снизили эту нагрузку.

    • #17859
      uxTuaHgp
      Участник

      Моя версия: высокая конкуренция повышает накладные расходы и время обслуживания каждой операции. При определенных условиях это, по всей видимости, может привести к шторму, а затем к полному клинчу.
      Я сейчас уже не вспомню про WIO, но скорее всего был и WIO атипично высокий.

    • #17860
      Alex
      Участник

      в свете этого утверждения непонятно, зачем было отключать SMT, а не изменить aio_maxserver пропорционально 😉

    • #17861
      Andriy
      Участник

      ну так это не SMT виноват, а дисковая подсистема, которая не способна была столько запросов обработать, не?

    • #17862
      roman
      Участник

      Моя версия: высокая конкуренция повышает накладные расходы и время обслуживания каждой операции. При определенных условиях это, по всей видимости, может привести к шторму, а затем к полному клинчу.
      Я сейчас уже не вспомню про WIO, но скорее всего был и WIO атипично высокий.

      При разных входных условиях будут совершенно разные советы. Ьолее того, неплохо было бы знать версию aix, а также ошибки oracle.

    • #17863
      roman
      Участник

      ну так это не SMT виноват, а дисковая подсистема, которая не способна была столько запросов обработать, не?

      Возможно, вы и правы. Но никто же не видел отчетов по производительности дисковой подсистемы. Поэтому также нельзя исключать настройки дисковой подсистемы на уровне aix/vios.

    • #17864

      [quote quote="sever" post=17095]Не забывайте, что сначала вы заплатили за это (POWER7) деньги, а потом пришли к выводу, что это “вредно”.

      Ну мы же не отключали 48 из 64 ядер, мы просто отключили одну из фич P7, которая приносит весьма иллюзорную пользу.[/quote]

      Ну уж… Волков помнится весьма обстоятельно доказывал, что в среднем по больнице SMT даст хороший прирост на оракловой базе. Разумеется это зависит от задачи, но мне кажется вы вылечили простуду отрубанием головы.

    • #17865

      В свете такой проблемы ещё и параметры оракла могли повлиять. Особенно вопросы размеров буферов и чекпоинтов – тема сия очень многофакторна и способна на ровном месте убить любой сервер. Буквально на днях вытаскивали сервер у которого из-за дефолтной конфигурации checkpoint interval и маленьких редо наступал клинч примерно через 10-15 минут бизнес нагрузки. А симптомы были будто СХД на dialup с fc перевели – вейт 98% и скорость 1-2MB.

    • #17866
      uxTuaHgp
      Участник

      Ну уж… Волков помнится весьма обстоятельно доказывал, что в среднем по больнице SMT даст хороший прирост на оракловой базе. Разумеется это зависит от задачи, но мне кажется вы вылечили простуду отрубанием головы.

      Волков обстоятельно доказывал на примере чуть более чем полностью синтетических тестов 🙂
      И разница в производительности от 4-х потоков была не в 4 раза.
      Простуду лечила вся служба поддержки ИБМ, включая инженеров из Остина, а у меня хоть как-то получилось привести систему в чувство удалением гланд вместе с голосовыми связками.
      Землекоп петь теперь не может, но зато копает исправно.

      По поводу немощности СХД: Загнуть СХД энтерпрайз уровня усилиями одного хоста – тут дело явно не в СХД.
      С тех пор СХД даже не модернизировалась, а нагрузка выросла раз в несколько – везет и не хромает.

      Замес был в том, что система тупо мигрировала с Power6 на Power7.
      Версию AIX в точности не вспомню, но взлетали тогда вроде бы на 6100-04, хапнули много всего.

    • #17867
      uxTuaHgp
      Участник

      в свете этого утверждения непонятно, зачем было отключать SMT, а не изменить aio_maxserver пропорционально 😉

      Я уже писал про это: параметры рестриктед и меняются по рекомендации инженеров поддержки.
      Рекомендаций не было, а проблема была, на свой страх и риск ничего изобретать не стали.
      А менять тогда уж надо было бы и aio_minserver в 1 и aio_maxserver в 8 например.
      По идее даже без SMT ядер стало в 4 раза больше – можно бы ужать еще круче было.
      Дефолтные значения приехали еще с Power5 наверное и под Power7 с его количеством ядер и тредов их никто не тюнил.

    • #17868
      andrewk
      Участник

      в сбере afaik smt был выключен на этих системах.

      зы. “тупая” миграция с p6 на p7 действительно вызывает множественные проблемы с производительностью. но единого рецепта не существует. кому-то помогает отключение smt, кому-то игра с настройками vmo. иногда помогает даже уменьшение количества процессоров по сравнению с p6.

    • #17869
      Andriy
      Участник

      а кому-то – чтение difference book…

    • #17871
      uxTuaHgp
      Участник

      В нашем случае было все: и vmo и SMT, количество процессоров только в LPAR-ах не уменьшали.
      А так хотелось смигрировать тупо :laugh:.
      А что, был у кого-то все же положительный опыт уменьшения aioservers при переходе на P7?

      Ну и в общем не могу согласиться, пожалуй, со всеми, кто кричал о некомпетентности руководства.
      Вендоры бьют себя кулаком в грудь.
      Системы себя уже зарекомендовали – AIX 7.1 и Power7 и Oracle 11 к тому времени уже нельзя было считать новинкой.

      Любая миграция влечет за собой всякие неприятные неожиданности, а без серьезной и длительной нагрузки эти неожиданности к сожалению не проявляются.

      Поддержка даже самого высокого уровня частенько вместо поиска причин падения системы пытается давать советы по тонкому тюнингу с эффектом в пару процентов прибавки производительности…

      После того как в Сбере нашли проблему служба поддержки не торопится распространять выработанные рекомендации проактивно, чтобы предотвратить такие ситуации у других клиентов.

      В общем получается, если и есть за что побранить менеджеров Сбербанка, так это за неправильный выбор вендора.
      Надо было брать Fujitsu-Siemens 😆

    • #17872
      uxTuaHgp
      Участник

      Кстати, а что за ерунду они там про симантек написали?
      Хитачевский софт работает на СХД, симантековский, вероятно на хосте.
      И какова связь мух с котлетами?
      По мему это просто банальное перекидывание мяча на другую сторону поля.

    • #17873
      Sever
      Участник

      И какова связь мух с котлетами?

      Я вообще не обладаю инсайдом, но из форбсовской статьи вытекает следующий факт:

      В середине декабря на дисковых хранилищах были произведены какие то изменения. Это вызвало активацию каких то “процессов – балансировщиков”, что и привело к множественным факапам.

      Декабрь и особенно две его последние недели являются самым чувствительным к доступности сервисов периодом для любого банка. На этот период обычно вводится мораторий на любые изменения в критически важных системах. Очевидно, что этого не было сделано. В этом и есть прокол менеджмента, который и привел к оргвыводам.

    • #17874
      uxTuaHgp
      Участник

      я не верю в фатальные факапы на энтерпрайз стораджах без участия криворуких админов, к коим я отношу и себя 😆
      Было однажды поставили в позу СХД, но вендор в общем признал, что не защитился от таких действий и поправил ПО.

    • #17875
      Sever
      Участник

      Факапы бывают всегда и у всех.
      Они всегда возникают по причине действий технических специалистов независимо от прямизны/кривизны их рук.
      Задача менеджмента организовать процесс так, что бы минимизировать частоту возникновения подобных проблем.
      В декабре факапов не должно быть вовсе. Достаточно ввести запрет на любые изменения на этот период.

    • #17876
      uxTuaHgp
      Участник

      Согласен. Пики активности клиентов известны, спады тоже.
      А я не исключаю, что проблемы и проявились под высокой нагрузкой.

    • #17877
      DaemoN-ekb
      Участник

      😆

      Сбербанк России
      16 сек. назад ·
      Уважаемые держатели карт Сбербанка России!

      По техническим причинам обслуживание банковских карт Сбербанка России временно не производится. Приносим искренние извинения за доставленные неудобства. Наши специалисты уже работают уже над тем, чтобы возобновить работу карт как можно быстрее, но, к сожалению, пока точных сроков мы сообщить не можем.

      ПРУФ

    • #17878
      Demetrio
      Участник

      facepalm

    • #17879
      uxTuaHgp
      Участник

      танцы на граблях

    • #17880
      Pavel Alexei
      Участник

      Ну почему все так упорно наступают на те же грабли?
      Или все равно этот процесс неименуем и вопрос лишь в том, кто будет тот, кто первый на них наступит? Думаю что каждый из “присутсвующих” может рассказать аналогичную историю из своего личного опыта.

      Обязательно манагер со стороны парнера впарит клиенту супер новую “игрушку”, причем продаст ее еще до того, как первый экземпляр сойдет с конвеера.
      А клиент обязательно купит все детали из разных лавок, чтоб никто не обиделся. Не, совсем не факт, что если бы все было от одного производителя, проблем не будет. Но 100% что когда пипец нагрянет, все постащики будут тыкать пальцами друг на друга.
      И обязательно кто-то из среднего звена управления у клиента решит выполнить пятилетку за 3 дня и захочет доложить об успешном досрочном запуске.
      И обязательно, когда наступит пипец, окажется что обратного пути нет. То ли по поличическим соображениями, то ли не предусмотрели такой вариант ( чтоб даже мысли такой не было). А “лучше” оба варианта сразу.
      И когда пипец наступит, соберут всех поставшиков, все будут избражать бурную деятельность, и особенно манагеры. Будут говорить, что зря брали компот, надо было все у них покупать, и тогда проблем бы не было. И бить себя в грудь, утверждая, то вот их часть ну никак не может быть источником проблем.
      А пытаться решать проблему будут инженеры клиента и парнера, ну может от производителя. А сапорт будет только мешать, все время требуя логи, дампы, тесты, upgrade, множество которых можно делать только глубокой ночью. И ничего более. Ну на крайняк подкрутить какой-то кран на пару милиметров. Как тут не вспомнить того равина, который лечил кур крестьянина рисованием всяких геометричческих фигур вокруг курятника, пока все куры не подохли.
      И сколько раз покажется, что вот оно, наконецто нашлось решение. Все довольные расходятся по домам, но через некоторое время понимаем, что “наша песня хороша, начинай сначала”.
      И когда уже станет совсем плохо, люди у клиента начнуть по тихоньку искать другое место работы, потому как неважно какую роль ты играл во всей этой свистопляске, все равно найдут и накажут крайнего.
      И в конце концов, окажется что проблемы была в какой-то кривой запятой, запрограммированной кривыми руками какого-то индуса, или съэкономленным кондером (ну как же, 10c с каждой шелесяки, пусть даже она 10 тыс зеленных стоит. Тысяча зрителей по одному рублю, бешенные деньги). И будет это там, ну нигде не ожидалось. И уже в сл. версии, этой проблемы не будет, и кому-то повезет, в эту @#$ вляпались другие.

      3 года назад я тоже через такое прошел, недели две спал у клиента. Конечно маштабы были не те, но в общем-то картина где-то очень похожа.

    • #17881
      Demetrio
      Участник

      Вывод? Вывод-то какой? Не топтаться в техническом смысле на месте.
      Как в таком масшатбном проекте не наступить на грабли, когда такое количество звеньев “гребанной цепи” огромно. Из-за запятых и спутники падают и пролетают мимо планет космические аппараты.

    • #17882
      azar_mike
      Участник

      Вывод: что для дорогого оборудования надо еще и спецов покупать, а у нас считают, что любую кухарку можно научить админить, ну и она админит до первого сбоя.
      Вообще грустно смотреть, когда консультант erp стоить на рынке труда в 2 раза больше админа aix.
      Ответственность как бы разная.

    • #17883
      Demetrio
      Участник

      Мне казалось, что сбер скупил лучшие кадры. Или получается, что пристроились самые ловкие?

    • #17884
      Pavel Alexei
      Участник

      Вывод? Вывод-то какой? Не топтаться в техническом смысле на месте.

      Я совсем не это имел в виду. Видимо чучка не писатель. Конечно прогресс не остановить.
      Я про то, что упорно все ходят по той же дорожке. Все было бы ничего, если бы я на все это смотрел со стороны. Было бы просто занимательно, ну упорно муха бьется башкой в стекло. И ничего если бы это было эпизодически. Эпизодически “большой” пипец наступает, т.е. не каждый раз. Иногда он такой “маленький”, что проходит почти незаметно. Иногда он почти безболезненный, но длится месяцами. Но опять и опять все идет по той же дорожке.
      IMHO тут что-то системное. А что делать я не знаю 🙁

    • #17885
      Pavel Alexei
      Участник

      А может я мнительным стал и мне чудится всякое?

    • #17886
      Demetrio
      Участник

      а у меня версия более прозаическая. Последние дни идет падение акций сбера. А ведь падение можно подогреть потом еще и тех. сбоем. Кто-то прилично мог заработать на этом.

    • #17887
      Sever
      Участник

      «У нас очень сильно разрослась вся IT-система, — сказал глава Сбербанка Герман Греф. — IT-система Сбербанка является самой мощной на российском рынке, второй подобной нет. В рамках утверждения новой структуры мы переформатируем всю систему управления IT. Встал вопрос о том, что сейчас нужно сосредоточиться на ликвидации рисков в системе, повысить управляемость системы. И понадобился как раз человек, который бы не только хорошо разбирался в IT, но и имел хорошие менеджерские способности и понимал, как нужно внедрить самую современную систему управления деятельностью банка».

    • #17888
      Oldnick
      Участник

      SAP ?

    • #17889
      barmaley
      Участник

      [i]«T. Встал вопрос о том, что сейчас нужно сосредоточиться на ликвидации рисков в системе, повысить управляемость системы.».[/i]

      Ну все, теперь выкинут c процессинга все паверы, веритасы и хапе, смигрируют на ораклеспарксуперкластер (оно у них вроде уже есть) и будет щастье и мин. риски от одного вендора (сами знаете кого) :))

    • #17892
      uxTuaHgp
      Участник

      Да не, ITIL/ITSM ща будут внедрять – ключ к успеху.

    • #38226
      Sever
      Участник

      Поднимет старую тему. Думаю, что освежить в памяти события трёхлетней давности будет полезно.

      Фактически мы столкнулись с недокументированной ошибкой на уровне операционной системы AIX. Окончательно разрешили мы эту проблему только примерно через девять месяцев, – рассказывает главный архитектор ИТ Сбербанка.

      По его словам, поскольку это была ядерная проблема ОС, решалась он совместно со специалистами IBM, американскими в том числе, а также со специалистами Oracle и Symantec, ПО которых также задействовано в системе, и специалистами банка. На фоне этого была даже создана специальная регламентированная под-организация внутри банка – CritSit (сокр. от critical situation) – на которую выносятся проблемы, связанные с внешними вендорами и которая разбирает их на уровне ведущих инженеров Сбербанка.

      По словам Андрея Хлызова, в банке была уверенность, что проблему удастся победить, однако эта история притормозила темпы реализации программы централизации: «Мы убрали режим SMT4, и ситуация стабилизировалась, после чего в течение почти девяти месяцев мы в систему больше никого не добавляли».

      После того как проблема на уровне ОС была решена и банк поставил все обновления, включая обновления Oracle, Symantec и прикладного ПО, режим SMT4 был снова включен и подключение банков к системе продолжилось, сказал Хлызов.

      http://tadviser.ru/a/253022

    • #38237
      SPQR
      Участник

      Ну, надеюсь, с тех пор всё пофиксили, самое время мигрировать Оракл с P6 на P7.

    • #38252
      Michael
      Участник

      Кажись в Сбере будет такая миграция, что все ах… 🙂

      Президент Сбербанка Герман Греф назвал неконкурентоспособной IT-инфраструктуру крупнейшего банка страны.

      Сбербанк, в сентябре 2015 года завершивший централизацию IT-систем банка, собирается полностью поменять новую платформу. «Мы очень сильно гордились своей программой централизации IT-систем, тем, как мы серьезно продвинулись за последние годы, инвестировали колоссальные деньги. Это был самый крупный и быстрый проект централизации IT-инфраструктуры в мире. Но как только мы построили наш супер data-center, все закончили, мы пришли к выводу, что мы абсолютно неконкурентоспособны», — сказал президент Сбербанка Герман Греф во время выступления на Гайдаровском форуме в РАНХиГС.
      «В прошлом году мы сделали 40 тысяч изменений нашей системы в год. Если посмотреть на другие банки, мы в шоколаде. Но если смотреть на Amazon, Google, мы ужасно отстаем. Amazon делает 10 тысяч изменений своей системы в день. И ключевая задача, которая стоит перед Сбербанком в этом году, — это увеличивать скорость, мы опаздываем», — объяснил Греф. По его словам, время от разработки продукта до его внедрения должно занимать часы, как у IT-компаний, а не месяцы.
      Греф рассказал, что в ближайшее время Сбербанк полностью поменяет свою платформу. «Мы покупаем пакет акций в российско-американской компании, которая выиграла тендер у Oracle, IBM, у всех, оказалась на порядок выше этих крупнейших компаний», сказал он, добавив, что речь идет об «open source с использованием облачных технологий, искусственного интеллекта, машинного обучения».

      Источник ваще-то РБК:
      http://www.rbc.ru/finances/15/01/2016/5698ce9d9a794791cf2c1748

      Фамилие у автора тоже неплохое: Сирануш Шароян

      • Ответ изменён 4 года назад пользователем Michael.
    • #38254
      wpg
      Участник

      Может ему застрелиться? Или в отставку подать? 🙂
      Не, лучше ещё одну систему построить. Это ж сколько бабла…

    • #38271
      Michael
      Участник

      offtop on:

      Предположительное объяснение пурги от Грефа – здесь. Выглядит логично.

      На что якобы нацелился Сбер – здесь.

      offtop off.

      • Ответ изменён 4 года назад пользователем Michael.
    • #38273
      barmaley
      Участник

      “Шеф, все пропало!”(c)

      Теперь выкинут все оракл-раки на Power795,  наберут “писюков” (уже закупают на 130M$) да мигрируют в InMemory Data Grid с преферансом да поэтессами ;-)))

       

       

       

Просмотр 118 веток ответов
  • Для ответа в этой теме необходимо авторизоваться.