Опять сбой в сбере.

Главная Форумы Курилка Обо всём Опять сбой в сбере.

В этой теме 118 ответов, 20 участников, последнее обновление  barmaley 2 года/лет, 6 мес. назад.

  • Автор
    Сообщения
  • #16108

    Sever
    Участник
  • #16113

    Oldnick
    Участник

    c таким бюджетом IT сбоев не должно быть в принципе.

  • #16116

    andrewk
    Участник

    размер бюджета не означает сам по себе наличие специалистов.

  • #16118

    uxTuaHgp
    Участник

    Наличие специалистов не исключает вероятности какого-либо сбоя.
    Чем сложнее инфраструктура, тем выше вероятность сбоя и тем сложнее диагностировать и устранять проблемы.

  • #16120

    Oldnick
    Участник

    не согласен. просто нет мотивации работать без сбоев. имея соответсвующий бюджет можно создать высоконадежную систему которая способна работать без сбоев.

  • #16121

    andrewk
    Участник

    не исключает, но значительно уменьшает.

  • #16137

    Michael
    Участник
  • #16141

    Sever
    Участник

    “По какой-то причине (пока не понятно по какой)…”

    Подождем результатов изысканий. Может в сам деле опубликуют.

  • #16142

    В обсуждения к новости на cnews сплошной бред. Насколько я знаю в Сбербанке на этой системе 24/7 сидят представители oracle – врятли они прохлопали что-то тривиальное типа переполнения архивных логов.

  • #16143

    Sever
    Участник

    IMHO с большой вероятностью ктоньть гденьть чтонть изменил или “запустил”. В пятницу в 17 часов самое подходящее время для таких инцидентов.

  • #16160

    uxTuaHgp
    Участник

    [url url=http://safe.cnews.ru/top/2012/07/09/itdirektor_sberbanka_raskryl_prichiny_masshtabnogo_sboya_495716]Зря они взяли диски от “известного производителя принтеров” [/url] 😉

    “И AIX не виноват!” :laugh:

    Не увидел про AIX не виноват.
    А HP не делает сама этерпрайз стораджи – это же Hitachi VSP у них перелицованая.

  • #16161

    uxTuaHgp
    Участник

    Тривиальные версии напрашиваются, но я не склонен считать админов ЦА СБРФ, а вместе с ними инженеров Крока и Оралка круглыми идиотами.
    Если проблему не удалось решить в течение 1 часа, значит это действительно неординарная проблема.
    Про то что до сих пор не огласили причины я молчу – ее могут не огласить никогда по понятным причинам.

    Комично выглядят попытки Орлова за счет интернет-пистаполов разобрать нахаляву логи и найти причины обрушения базы.

  • #16168

    andrewk
    Участник

    [quote quote="mih" post=15396][url url=http://safe.cnews.ru/top/2012/07/09/itdirektor_sberbanka_raskryl_prichiny_masshtabnogo_sboya_495716]Зря они взяли диски от “известного производителя принтеров” [/url] 😉

    “И AIX не виноват!” :laugh:

    Не увидел про AIX не виноват.
    А HP не делает сама этерпрайз стораджи – это же Hitachi VSP у них перелицованая.[/quote]

    там в коментах про AIX 7 на Power795 сказано (вот вам и про специалистов – кто ж в здравом уме поставил AIX7 на критичную систему?). А HP еще делает такое г., как EVA – это совсем не Hitachi.

  • #16171

    Andriy
    Участник

    А HP еще делает такое г., как EVA – это совсем не Hitachi.

    дика сомневаюсь, что у них что-то на еве лежало 🙂 она просто не вытянула бы их потенциальных нагрузок. разве что сотни ев, и на уровне AIX/Oracle размазывать… но это даже для вашего сбера – слишком

  • #16172

    Sever
    Участник

    Тривиальные версии напрашиваются, но я не склонен считать админов ЦА СБРФ, а вместе с ними инженеров Крока и Оралка круглыми идиотами.

    Помимо всяческих админов на таких системах пасется функциональное сопровождение процессинга, всяческие доилки в BI системы и сонм “аналитиков” с возможностью запуска любого SQL скрипта. Если присутствие первых оправдано, то последние чаще всего и создают подобные ситуации.

  • #16176

    uxTuaHgp
    Участник

    там в коментах про AIX 7 на Power795 сказано (вот вам и про специалистов – кто ж в здравом уме поставил AIX7 на критичную систему?). А HP еще делает такое г., как EVA – это совсем не Hitachi.

    Согласен про AIX7.
    С радостью вернулся бы на 5.3, сколько горя хапнули на 6.1…
    EVA отнюдь не энтерпрайз. Сильно сомневаюсь, что с 795 сопрягли систему среднего уровня.
    И потом, насколько мне известно, всем EVA-м уже объявили EOL.
    Если учесть еще то, что у них геокластер, то наверняка СХД должна неплохо уметь репликацию, причем без ощутимого падения производительности.
    В общем болтунов толпа собралась на цньюз в каментах…

  • #16177

    uxTuaHgp
    Участник

    Помимо всяческих админов на таких системах пасется функциональное сопровождение процессинга, всяческие доилки в BI системы и сонм “аналитиков” с возможностью запуска любого SQL скрипта. Если присутствие первых оправдано, то последние чаще всего и создают подобные ситуации.

    Вот я и говорю, что у меня есть идиотские идеи по поводу того, что например какая-то транзакция открылась и, возможно даже ничего не делая, висела в течение нескольких часов мешая очистить/заархивировать REDO.
    Бывало у меня в практике такое, кстати: прикладники залезают PL/SQL Developer-ом в табличку в режиме редактирования данных и забывают про это окно.
    Правда в продуктиве такого быть не может в принципе…
    В таком случае достаточно было добавить REDO логов и потом найти долгоиграющую транзакцию и отстрелить ее.
    Я сильно сомневаюсь, что их админы до этого не доперли бы.
    Опять таки подобные вещи не влекут разрушения базы данных, так что скорее всего таки они схватили либо известный уже баг либо какой-то доселе неизвестный.

  • #16179

    yota
    Участник

    Вот я и говорю, что у меня есть идиотские идеи по поводу того, что например какая-то транзакция открылась и, возможно даже ничего не делая, висела в течение нескольких часов мешая очистить/заархивировать REDO.

    С каких это пор незакрытая транзакция может каким-либо образом помешать архивации REDO логов?? :blink:

  • #16180

    uxTuaHgp
    Участник

    Значит я соврамши.
    Тем более все говорит за то, что это баг оракла.

  • #16187

    Sever
    Участник

    из недр интернета…

    “После сбоя Сбербанк мобилизовал глобальных партнеров — поставщиков IT-систем — IBM, Oracle, Hewlett-Packard, Symantec. Это первый подобный случай. В субботу и воскресенье более 250 специалистов этих компаний и около 30 человек в Сбербанке разбирали ситуацию, чтобы понять причину сбоя. Сам Орловский в выходные с работы не уходил…”

  • #16188

    Andriy
    Участник

    а зачем 250???

  • #16190

    Sever
    Участник

    Анекдот про бизнес-стратегии

    Жила-была одна команда гребцов. И решила она посоревноваться с другой командой гребцов. В каждую команду вошло по 8 человек.

    Обе команды усиленно тренировались и ко дню соревнования были в одинаковой кондиции. Но в итоге команда соперников обошла их на километр. Настроение у проигравшей команды было хуже некуда. Высшее руководство задумалось. И решило нанять группу аналитиков, чтобы те оценили ситуацию и дали рекомендации, как выиграть в следующий раз. После нескольких недель напряженного умственного труда аналитики выдали ответ на вопрос, почему команда проиграла. Оказалось, что в выигравшей команде было семеро гребцов и один капитан. В то время, как в проигравшей было 7 капитанов и всего один гребец. Высшее руководство хлопнуло себя по лбу и решило нанять консалтинговую компанию для проведения репозиционирования. Консультанты решили, что в команде было слишком много капитанов и слишком мало гребцов и рекомендовали перестроить команду. Теперь в команде стало всего четыре капитана, два менеджера, один топ-менеджер и один гребец. С гребцом консультанты посоветовали активно работать, дабы мотивировать его на достижение победы. На следующих соревнованиях команда соперников ушла вперед на два километра.
    Высшее руководство уволило гребца, так как оказалось недовольно результатами его работы. Все остальные члены команды получили бонусы за достижение высоких результатов в процессе мотивации.
    Аналитики снова сели за расчеты и выдали причину поражения: «Стратегия была хорошая, мотивация – Оk, менеджеры высшего класса, а вот средства реализации идеи были плохие».
    К следующим соревнованиям проигравшая команда проектирует новую лодку…

  • #16191

    andrewk
    Участник

    Комитет больше 21 человека не работает. Закон Паркинсона.

  • #16192

    Sever
    Участник

    IBM отвечает за 795ый сервер и ОС (AIX);
    Oracle за Oracle;
    Hewlett-Packard за дисковые системы;
    Semantec – за бекапирование/восстановление;

    Каждый отчитывается по своей зоне ответственности…

  • #16193

    Andriy
    Участник

    сдается мне, как-то так:

  • #16198

    azar_mike
    Участник

    Сейчас в Сбербанк онлайн пытался счет оплатить, получил:

    ОШИБКА РЕГИСТРАЦИИ ЗАПРОСА BillingPayPrepRq В ЦПФЛ! ORA-01653: невозможно увеличить таблицу NPLAT.KSH_DR до 8192 в разделе NPLAT_TBL ОШИБКА РЕГИСТРАЦИИ ОТВЕТА BillingPayPrepRq В ЦПФЛ! ORA-01653: невозможно увеличить таблицу NPLAT.KSH_DR до 8192 в разделе NPLAT_TBL

    )))))))))))))))))))))

  • #16200

    Sever
    Участник

    Пробил в гугле аббревиатуру ЦПФЛ уважаемого банка – “Централизованные Платежи Физических Лиц”

    По оракловой диагностике : This error does not necessarily indicate whether or not you have enough space in the tablespace, it merely indicates that Oracle could not find a large enough area of free contiguous space in which to fit the next extent.

  • #16201

    uxTuaHgp
    Участник

    По идее, если у него нет достаточно большого куска под экстент, то оракл должен расширить файлы данных, если конечно включено авторасширение.
    Если не включено, значит мониторинг состояния БД и дисциплина админов не на высоте.

  • #16202

    andrewk
    Участник

    снова к вопросу о специалистах? 😉

  • #16203

    uxTuaHgp
    Участник

    Ну о чем собственно говорить, когда зарплата у них напоминает лотерею: 1/3 оклад, а остальное как фишка ляжет…
    Студенты и женщины замужем могут так жить, а мужики, которые несут груз ответственности за семью – нет.

  • #16204

    pre
    Участник

    Сейчас в Сбербанк онлайн пытался счет оплатить, получил:

    ОШИБКА РЕГИСТРАЦИИ ЗАПРОСА BillingPayPrepRq В ЦПФЛ! ORA-01653: невозможно увеличить таблицу NPLAT.KSH_DR до 8192 в разделе NPLAT_TBL ОШИБКА РЕГИСТРАЦИИ ОТВЕТА BillingPayPrepRq В ЦПФЛ! ORA-01653: невозможно увеличить таблицу NPLAT.KSH_DR до 8192 в разделе NPLAT_TBL

    )))))))))))))))))))))

    Диагностические сообщения в интерфейсе для конечного пользователя? Может там ещё всё бежит из под пользователя NPLAT и предусмотрено поле ввода команд sql+?

  • #16205

    uxTuaHgp
    Участник

    Действительно зарождаются мыслишки, а нет ли возможности иньекцию сделать?

  • #16206

    Demetrio
    Участник

    То, что был сбой – это бывает иногда, ничто не дает 100% гарантии работоспособности, но судя по диагностике сообщений у них получается какая-то доморощенная двузвенная архитектура. Неужели сбер не может позволить купить дорогое и проверенное решение.

  • #16207

    uxTuaHgp
    Участник

    Тут все перемешали.
    Онлайн – отдельный продукт.
    Сбой был на процессинге, там Way4 – это брэнд мировой.

  • #16208

    Albert Maksimov
    Участник

    Сегодня на hh Сбер открыл две вакансии:
    -Главный инженер – руководитель группы (Oracle DBA)
    -Ведущий инженер (Oracle DBA)

    вчера одну:
    -Администратор СУБД Oracle

    К чему бы это? :laugh:

  • #16211

    andrewk
    Участник

    видимо уже нашли козла отпущения

  • #16212

    Andriy
    Участник

    учитывая масштабы – скорее козлов

  • #16214

    Sever
    Участник
  • #16215

    Oldnick
    Участник

    конечно, все системы ведь меняют….
    в тесте такие сбои не съэмулировать 🙂

  • #16216

    uxTuaHgp
    Участник

    Получается, что таки имел место какой-то нелепый ляп, раз Сбер собрася сменить сразу всю команду ДБА.
    На мой взгляд надо увольнять директора кадровиков, потому что при текущем положении дел с вербовкой и оплатой труда кардинально ничего улучшить не удастся.

  • #16234

    Anton Bukhman
    Участник

    http://www.banki.ru/news/lenta/?id=3945012
    Новая операционная система на базе Oracle во всём виновата

  • #16265

    Demetrio
    Участник

    А кто-нить разъяснит что такое новая ОС на базе oracle?

  • #16268

    Это когда системный администратор изнасиловал журналиста 😀 http://mad-crack.livejournal.com/108254.html

  • #16272

    Michael
    Участник

    А кто-нить разъяснит что такое новая ОС на базе oracle?

    Канешна жэ, Oracle Linux!!! :silly:

  • #16279

    Anton Bukhman
    Участник

    Оговорился похоже.
    Но меня шеф попросил проверить.
    У нас тоже IBM+Oracle+Way4

  • #16281

    andrewk
    Участник

    Ezz, а я тут со своим бывшим шефом на эту тему пообщался. И мы сошлись во мнении, что просто надо все регулярно и полностью тестировать. Так что лучше протестируйте свое DR/HA-решение.

  • #16284

    Anton Bukhman
    Участник

    Это точно.
    Наверное шеф и сам такое предложит:)

  • #16335

    Sever
    Участник

    Раз уж есть спецы знакомые с WAY4, то прошу вас ответить на вопрос – что в техническом и организационном плане для этой системы означит фраза “разделить процессинг и биллинг”?

  • #16341

    DaemoN-ekb
    Участник

    Если у кого есть желание сбербанк предлагает поразгадывать причину сбоя совместно ТУТ

  • #16803

    Тут ходят слухи, что технического директора за этот сбой уволили.

  • #16804

    andrewk
    Участник

    и начали стопками набирать специалистов…

  • #16805

    azar_mike
    Участник

    Только ценник заниженный, еще знаю, что всему департаменту it на несколько месяцев премию срубили, даже тем отделам, которые далеко от db, а как извесно ЗП с Сбере 50/50 оклад/премия, т.е. еще и заработали на собственном сбое… )

  • #16806

    uxTuaHgp
    Участник

    и начали стопками набирать специалистов…

    А толку?
    Шило на мыло меняют: ленятся даже нормальные описания вакансий написать и зарплату жмут как и прежде.
    Понимание не пришло – просто тупо отомстили стрелочникам.

  • #16807

    uxTuaHgp
    Участник

    а как извесно ЗП с Сбере 50/50 оклад/премия, т.е. еще и заработали на собственном сбое… )

    Я бы сказал 30/70

  • #17531

    Sever
    Участник

    Сбер решил пойти по пути Альфы и увеличивает объем памяти на системах с 2х до 4х Тб.

    http://www.komtender.ru/tender/5747215

    Непонятно одно, почему сразу не купили 8Тб.

  • #17532

    Demetrio
    Участник

    иногда проще шуруп забить

  • #17533

    Sever
    Участник

    Теперь нужно в двух серверах по очереди вынимать все 16 буков для установки новых диммов.
    То еще удовольствие.
    Причем, планируется не добавление, а именно замена – старую память вынимают и выкидывают, а новую память большим номиналом ставят. Это ваще пипец.

  • #17534

    Oldnick
    Участник

    Сбер решил пойти по пути Альфы и увеличивает объем памяти на системах с 2х до 4х Тб.
    http://www.komtender.ru/tender/5747215

    странный документ. реально планки стоят втрое больше, активация в 2,5 раза выше, чем в табличке.
    если предположить что IBM для сбера выкатило спец. предложение по апгрейду – полная замена планок с учетом стоимости старых, тогда мы видим в документе – фактическую цену как результат апгрейда. Но все равно, как-то дешево в документе….
    я думаю фикция. такие цены никто не предложит, только если в убыток $1 млн.
    :laugh:

    100GB активация стоит $44K
    1 комплект 8219 0/512GB стоит $110K

  • #17535

    Sever
    Участник

    Имхо цены в документе уже с учетом всех скидок.
    IBM сгенеровал коды активации на память в конце октября. То есть реально они это купили за эти деньги. Плюс 12 тысяч за работу локального сервиса, который будет над этим тра…ся.

    Еще есть вариант, что реально закупили памяти в два раза меньше и просто добавят этот объем к имевшемуся ранее.

  • #17536

    Oldnick
    Участник

    если даже с учетом скидок, все равно не канает цена. слишком большая разница.
    ощущение что куплено по старым ценам.

  • #17537

    andrewk
    Участник

    цена в 3 раза выше – значит, IBM предоставил Сберу скидку 67%. Что в этом необычного? Я буду удивлен, если кто-то из больших клиентов скажет мне, что у него нет 50% скидки от IBM (особенно на такое оборудование, как 795)

  • #17538

    Sever
    Участник

    По любому покупка по таким ценам для Сбера является плюсом.

  • #17667

    Sever
    Участник
  • #17669

    uxTuaHgp
    Участник

    Собственнолюди то все новые относительно, не стажисты доморощенные, просто столкнулись с такими масштабами впервые.

  • #17838

    DaemoN-ekb
    Участник

    Вот разобрались вроде с проблемой. подробнее

  • #17839

    Demetrio
    Участник

    не верю что с лету нельзя было обнаружить данную проблему. Это же настолько на поверхности лежит.
    Жду след. сбоя

  • #17842

    Alex
    Участник

    Вот разобрались вроде с проблемой.

    Это другая проблема.

    Первая случилась в разгар рабочего дня. Причём по итогам (набор кучи специалистов в yammer, обещание всем выдать логи на разбор) – пшик, а значит ошибка настолько тривиальна, что результаты даже стыдно показывать, засмеют.

  • #17843

    uxTuaHgp
    Участник

    Похоже наконец то дошли до того, что на больших Power7 нужно отключать SMT.

    Мы с подобным столкнулись 1.5 года назад при переходе на новое железо, и я заподозрил, что все дело в огромной конкуренции aioserver-ов, которых при включенном SMT невероятное количество.

    Если у них 795 в полной набивке, то по умолчанию процессов aioserver минимум 3072 и все пытаются чего-то добиться от СХД…
    Подозреваю, что при активной нагрузке со стороны Oracle возникает шторм своеобразный: система порождает до 30 aioserver процессов на процессор со всеми вытекающими.

  • #17845

    DaemoN-ekb
    Участник

    Видимо сильно попили что-то и не все сделали или просто недодумали все, но потихоньку все разбегаются тут

  • #17846

    Может просто ввод-вывод отладить, чем отключать SMT?

  • #17847

    Точнее это естественно не просто, но отключать SMT выглядит глупостью.

  • #17848

    uxTuaHgp
    Участник

    Угу, но параметры ioo
    aio_maxservers = 30
    aio_minservers = 3
    restricted
    Их изменение рекомендуется только с участием поддержки.
    Поддержка ничего в снэпах не находила, даже на 3-м уровне в Техасе.

    Короче отключение SMT проблему решило.
    Учитывая то, что SMT дает выигрыш не в 4 раза и далеко не на любых задачах – отключение его не такая уж глупость.

  • #17849

    Alex
    Участник

    I/O всё-равно потом сериализуется, жонглировать aioserver-ами смысла нет.

    Т.е. я верю, что это решило проблему, но выглядит странно, скорее всего какая-нибудь хитрая проблема с firmware в районе именно SMT.

    Потому что уменьшить число процессов всего в два раза – ну не показательно, ладно бы на порядок.

  • #17850

    Alex
    Участник

    Видимо сильно попили что-то и не все сделали или просто недодумали все, но потихоньку все разбегаются [url url=http://biz.cnews.ru/news/top/index.shtml?2013/02/20/519730]тут[/url]

    Да не разбегаются, просто кто-то начал разгребать эти конюшни. Ну и бюджет в нынешнем году совсем не то, что в прошлых, некоторые, видимо, не видят в этом для себя перспектив 😉

    Я в целом понимаю, почему у них случаются факапы. Зоопарк систем и многовековые наслоения одного на другое, которые боятся тронуть, чтобы всё не развалилось.

  • #17851

    uxTuaHgp
    Участник

    Потому что уменьшить число процессов всего в два раза – ну не показательно, ладно бы на порядок.

    Не в 2, а в 4.
    Разница есть.
    Если тебя в воду бросить и прицепить на пояс 2 кг или 8 кг будет разница? 🙂

  • #17852

    Sever
    Участник

    Не забывайте, что сначала вы заплатили за это (POWER7) деньги, а потом пришли к выводу, что это “вредно”.

  • #17853

    Alex
    Участник

    АА, P7 же, пропустил.

    А что, в момент проблем (или непосредственно перед ней) прямо было видно, что все aioserver-а запустлись полностью утилизированы? Ну не верю, что дело в них.

  • #17854

    Не забывайте, что сначала вы заплатили за это (POWER7) деньги, а потом пришли к выводу, что это “вредно”.

    Платили не они, скорее всего 🙂

  • #17855

    uxTuaHgp
    Участник

    Не забывайте, что сначала вы заплатили за это (POWER7) деньги, а потом пришли к выводу, что это “вредно”.

    Ну мы же не отключали 48 из 64 ядер, мы просто отключили одну из фич P7, которая приносит весьма иллюзорную пользу.

  • #17856

    uxTuaHgp
    Участник

    Ну и кстати, я только версию предложил, так как мы в это утыкались, а в Сбере ситуация похожая.

  • #17857

    uxTuaHgp
    Участник

    АА, P7 же, пропустил.

    А что, в момент проблем (или непосредственно перед ней) прямо было видно, что все aioserver-а запустлись полностью утилизированы? Ну не верю, что дело в них.

    Я видел загруженность дисков, огромное кол-во aioserver процессов, огромный кернел тайм и падения оракла, если мне не изменяет память, из-за невозможности записать в контрольники.

    Я отключил SMT по наитию и это помогло.

  • #17858

    roman
    Участник

    А iowait вы видели? При большой загруженности дисков aio абсолютно бесполезно. Более того из-за большого количества aioserver процессов вы и можете получить огромный кернел тайм и context switches. Отключив SMT, вы просто снизили эту нагрузку.

  • #17859

    uxTuaHgp
    Участник

    Моя версия: высокая конкуренция повышает накладные расходы и время обслуживания каждой операции. При определенных условиях это, по всей видимости, может привести к шторму, а затем к полному клинчу.
    Я сейчас уже не вспомню про WIO, но скорее всего был и WIO атипично высокий.

  • #17860

    Alex
    Участник

    в свете этого утверждения непонятно, зачем было отключать SMT, а не изменить aio_maxserver пропорционально 😉

  • #17861

    Andriy
    Участник

    ну так это не SMT виноват, а дисковая подсистема, которая не способна была столько запросов обработать, не?

  • #17862

    roman
    Участник

    Моя версия: высокая конкуренция повышает накладные расходы и время обслуживания каждой операции. При определенных условиях это, по всей видимости, может привести к шторму, а затем к полному клинчу.
    Я сейчас уже не вспомню про WIO, но скорее всего был и WIO атипично высокий.

    При разных входных условиях будут совершенно разные советы. Ьолее того, неплохо было бы знать версию aix, а также ошибки oracle.

  • #17863

    roman
    Участник

    ну так это не SMT виноват, а дисковая подсистема, которая не способна была столько запросов обработать, не?

    Возможно, вы и правы. Но никто же не видел отчетов по производительности дисковой подсистемы. Поэтому также нельзя исключать настройки дисковой подсистемы на уровне aix/vios.

  • #17864

    [quote quote="sever" post=17095]Не забывайте, что сначала вы заплатили за это (POWER7) деньги, а потом пришли к выводу, что это “вредно”.

    Ну мы же не отключали 48 из 64 ядер, мы просто отключили одну из фич P7, которая приносит весьма иллюзорную пользу.[/quote]

    Ну уж… Волков помнится весьма обстоятельно доказывал, что в среднем по больнице SMT даст хороший прирост на оракловой базе. Разумеется это зависит от задачи, но мне кажется вы вылечили простуду отрубанием головы.

  • #17865

    В свете такой проблемы ещё и параметры оракла могли повлиять. Особенно вопросы размеров буферов и чекпоинтов – тема сия очень многофакторна и способна на ровном месте убить любой сервер. Буквально на днях вытаскивали сервер у которого из-за дефолтной конфигурации checkpoint interval и маленьких редо наступал клинч примерно через 10-15 минут бизнес нагрузки. А симптомы были будто СХД на dialup с fc перевели – вейт 98% и скорость 1-2MB.

  • #17866

    uxTuaHgp
    Участник

    Ну уж… Волков помнится весьма обстоятельно доказывал, что в среднем по больнице SMT даст хороший прирост на оракловой базе. Разумеется это зависит от задачи, но мне кажется вы вылечили простуду отрубанием головы.

    Волков обстоятельно доказывал на примере чуть более чем полностью синтетических тестов 🙂
    И разница в производительности от 4-х потоков была не в 4 раза.
    Простуду лечила вся служба поддержки ИБМ, включая инженеров из Остина, а у меня хоть как-то получилось привести систему в чувство удалением гланд вместе с голосовыми связками.
    Землекоп петь теперь не может, но зато копает исправно.

    По поводу немощности СХД: Загнуть СХД энтерпрайз уровня усилиями одного хоста – тут дело явно не в СХД.
    С тех пор СХД даже не модернизировалась, а нагрузка выросла раз в несколько – везет и не хромает.

    Замес был в том, что система тупо мигрировала с Power6 на Power7.
    Версию AIX в точности не вспомню, но взлетали тогда вроде бы на 6100-04, хапнули много всего.

  • #17867

    uxTuaHgp
    Участник

    в свете этого утверждения непонятно, зачем было отключать SMT, а не изменить aio_maxserver пропорционально 😉

    Я уже писал про это: параметры рестриктед и меняются по рекомендации инженеров поддержки.
    Рекомендаций не было, а проблема была, на свой страх и риск ничего изобретать не стали.
    А менять тогда уж надо было бы и aio_minserver в 1 и aio_maxserver в 8 например.
    По идее даже без SMT ядер стало в 4 раза больше – можно бы ужать еще круче было.
    Дефолтные значения приехали еще с Power5 наверное и под Power7 с его количеством ядер и тредов их никто не тюнил.

  • #17868

    andrewk
    Участник

    в сбере afaik smt был выключен на этих системах.

    зы. “тупая” миграция с p6 на p7 действительно вызывает множественные проблемы с производительностью. но единого рецепта не существует. кому-то помогает отключение smt, кому-то игра с настройками vmo. иногда помогает даже уменьшение количества процессоров по сравнению с p6.

  • #17869

    Andriy
    Участник

    а кому-то – чтение difference book…

  • #17871

    uxTuaHgp
    Участник

    В нашем случае было все: и vmo и SMT, количество процессоров только в LPAR-ах не уменьшали.
    А так хотелось смигрировать тупо :laugh:.
    А что, был у кого-то все же положительный опыт уменьшения aioservers при переходе на P7?

    Ну и в общем не могу согласиться, пожалуй, со всеми, кто кричал о некомпетентности руководства.
    Вендоры бьют себя кулаком в грудь.
    Системы себя уже зарекомендовали – AIX 7.1 и Power7 и Oracle 11 к тому времени уже нельзя было считать новинкой.

    Любая миграция влечет за собой всякие неприятные неожиданности, а без серьезной и длительной нагрузки эти неожиданности к сожалению не проявляются.

    Поддержка даже самого высокого уровня частенько вместо поиска причин падения системы пытается давать советы по тонкому тюнингу с эффектом в пару процентов прибавки производительности…

    После того как в Сбере нашли проблему служба поддержки не торопится распространять выработанные рекомендации проактивно, чтобы предотвратить такие ситуации у других клиентов.

    В общем получается, если и есть за что побранить менеджеров Сбербанка, так это за неправильный выбор вендора.
    Надо было брать Fujitsu-Siemens 😆

  • #17872

    uxTuaHgp
    Участник

    Кстати, а что за ерунду они там про симантек написали?
    Хитачевский софт работает на СХД, симантековский, вероятно на хосте.
    И какова связь мух с котлетами?
    По мему это просто банальное перекидывание мяча на другую сторону поля.

  • #17873

    Sever
    Участник

    И какова связь мух с котлетами?

    Я вообще не обладаю инсайдом, но из форбсовской статьи вытекает следующий факт:

    В середине декабря на дисковых хранилищах были произведены какие то изменения. Это вызвало активацию каких то “процессов – балансировщиков”, что и привело к множественным факапам.

    Декабрь и особенно две его последние недели являются самым чувствительным к доступности сервисов периодом для любого банка. На этот период обычно вводится мораторий на любые изменения в критически важных системах. Очевидно, что этого не было сделано. В этом и есть прокол менеджмента, который и привел к оргвыводам.

  • #17874

    uxTuaHgp
    Участник

    я не верю в фатальные факапы на энтерпрайз стораджах без участия криворуких админов, к коим я отношу и себя 😆
    Было однажды поставили в позу СХД, но вендор в общем признал, что не защитился от таких действий и поправил ПО.

  • #17875

    Sever
    Участник

    Факапы бывают всегда и у всех.
    Они всегда возникают по причине действий технических специалистов независимо от прямизны/кривизны их рук.
    Задача менеджмента организовать процесс так, что бы минимизировать частоту возникновения подобных проблем.
    В декабре факапов не должно быть вовсе. Достаточно ввести запрет на любые изменения на этот период.

  • #17876

    uxTuaHgp
    Участник

    Согласен. Пики активности клиентов известны, спады тоже.
    А я не исключаю, что проблемы и проявились под высокой нагрузкой.

  • #17877

    DaemoN-ekb
    Участник

    😆

    Сбербанк России
    16 сек. назад ·
    Уважаемые держатели карт Сбербанка России!

    По техническим причинам обслуживание банковских карт Сбербанка России временно не производится. Приносим искренние извинения за доставленные неудобства. Наши специалисты уже работают уже над тем, чтобы возобновить работу карт как можно быстрее, но, к сожалению, пока точных сроков мы сообщить не можем.

    ПРУФ

  • #17878

    Demetrio
    Участник

    facepalm

  • #17879

    uxTuaHgp
    Участник

    танцы на граблях

  • #17880

    Pavel Alexei
    Участник

    Ну почему все так упорно наступают на те же грабли?
    Или все равно этот процесс неименуем и вопрос лишь в том, кто будет тот, кто первый на них наступит? Думаю что каждый из “присутсвующих” может рассказать аналогичную историю из своего личного опыта.

    Обязательно манагер со стороны парнера впарит клиенту супер новую “игрушку”, причем продаст ее еще до того, как первый экземпляр сойдет с конвеера.
    А клиент обязательно купит все детали из разных лавок, чтоб никто не обиделся. Не, совсем не факт, что если бы все было от одного производителя, проблем не будет. Но 100% что когда пипец нагрянет, все постащики будут тыкать пальцами друг на друга.
    И обязательно кто-то из среднего звена управления у клиента решит выполнить пятилетку за 3 дня и захочет доложить об успешном досрочном запуске.
    И обязательно, когда наступит пипец, окажется что обратного пути нет. То ли по поличическим соображениями, то ли не предусмотрели такой вариант ( чтоб даже мысли такой не было). А “лучше” оба варианта сразу.
    И когда пипец наступит, соберут всех поставшиков, все будут избражать бурную деятельность, и особенно манагеры. Будут говорить, что зря брали компот, надо было все у них покупать, и тогда проблем бы не было. И бить себя в грудь, утверждая, то вот их часть ну никак не может быть источником проблем.
    А пытаться решать проблему будут инженеры клиента и парнера, ну может от производителя. А сапорт будет только мешать, все время требуя логи, дампы, тесты, upgrade, множество которых можно делать только глубокой ночью. И ничего более. Ну на крайняк подкрутить какой-то кран на пару милиметров. Как тут не вспомнить того равина, который лечил кур крестьянина рисованием всяких геометричческих фигур вокруг курятника, пока все куры не подохли.
    И сколько раз покажется, что вот оно, наконецто нашлось решение. Все довольные расходятся по домам, но через некоторое время понимаем, что “наша песня хороша, начинай сначала”.
    И когда уже станет совсем плохо, люди у клиента начнуть по тихоньку искать другое место работы, потому как неважно какую роль ты играл во всей этой свистопляске, все равно найдут и накажут крайнего.
    И в конце концов, окажется что проблемы была в какой-то кривой запятой, запрограммированной кривыми руками какого-то индуса, или съэкономленным кондером (ну как же, 10c с каждой шелесяки, пусть даже она 10 тыс зеленных стоит. Тысяча зрителей по одному рублю, бешенные деньги). И будет это там, ну нигде не ожидалось. И уже в сл. версии, этой проблемы не будет, и кому-то повезет, в эту @#$ вляпались другие.

    3 года назад я тоже через такое прошел, недели две спал у клиента. Конечно маштабы были не те, но в общем-то картина где-то очень похожа.

  • #17881

    Demetrio
    Участник

    Вывод? Вывод-то какой? Не топтаться в техническом смысле на месте.
    Как в таком масшатбном проекте не наступить на грабли, когда такое количество звеньев “гребанной цепи” огромно. Из-за запятых и спутники падают и пролетают мимо планет космические аппараты.

  • #17882

    azar_mike
    Участник

    Вывод: что для дорогого оборудования надо еще и спецов покупать, а у нас считают, что любую кухарку можно научить админить, ну и она админит до первого сбоя.
    Вообще грустно смотреть, когда консультант erp стоить на рынке труда в 2 раза больше админа aix.
    Ответственность как бы разная.

  • #17883

    Demetrio
    Участник

    Мне казалось, что сбер скупил лучшие кадры. Или получается, что пристроились самые ловкие?

  • #17884

    Pavel Alexei
    Участник

    Вывод? Вывод-то какой? Не топтаться в техническом смысле на месте.

    Я совсем не это имел в виду. Видимо чучка не писатель. Конечно прогресс не остановить.
    Я про то, что упорно все ходят по той же дорожке. Все было бы ничего, если бы я на все это смотрел со стороны. Было бы просто занимательно, ну упорно муха бьется башкой в стекло. И ничего если бы это было эпизодически. Эпизодически “большой” пипец наступает, т.е. не каждый раз. Иногда он такой “маленький”, что проходит почти незаметно. Иногда он почти безболезненный, но длится месяцами. Но опять и опять все идет по той же дорожке.
    IMHO тут что-то системное. А что делать я не знаю 🙁

  • #17885

    Pavel Alexei
    Участник

    А может я мнительным стал и мне чудится всякое?

  • #17886

    Demetrio
    Участник

    а у меня версия более прозаическая. Последние дни идет падение акций сбера. А ведь падение можно подогреть потом еще и тех. сбоем. Кто-то прилично мог заработать на этом.

  • #17887

    Sever
    Участник

    «У нас очень сильно разрослась вся IT-система, — сказал глава Сбербанка Герман Греф. — IT-система Сбербанка является самой мощной на российском рынке, второй подобной нет. В рамках утверждения новой структуры мы переформатируем всю систему управления IT. Встал вопрос о том, что сейчас нужно сосредоточиться на ликвидации рисков в системе, повысить управляемость системы. И понадобился как раз человек, который бы не только хорошо разбирался в IT, но и имел хорошие менеджерские способности и понимал, как нужно внедрить самую современную систему управления деятельностью банка».

  • #17888

    Oldnick
    Участник

    SAP ?

  • #17889

    barmaley
    Участник

    [i]«T. Встал вопрос о том, что сейчас нужно сосредоточиться на ликвидации рисков в системе, повысить управляемость системы.».[/i]

    Ну все, теперь выкинут c процессинга все паверы, веритасы и хапе, смигрируют на ораклеспарксуперкластер (оно у них вроде уже есть) и будет щастье и мин. риски от одного вендора (сами знаете кого) :))

  • #17892

    uxTuaHgp
    Участник

    Да не, ITIL/ITSM ща будут внедрять – ключ к успеху.

  • #38226

    Sever
    Участник

    Поднимет старую тему. Думаю, что освежить в памяти события трёхлетней давности будет полезно.

    Фактически мы столкнулись с недокументированной ошибкой на уровне операционной системы AIX. Окончательно разрешили мы эту проблему только примерно через девять месяцев, – рассказывает главный архитектор ИТ Сбербанка.

    По его словам, поскольку это была ядерная проблема ОС, решалась он совместно со специалистами IBM, американскими в том числе, а также со специалистами Oracle и Symantec, ПО которых также задействовано в системе, и специалистами банка. На фоне этого была даже создана специальная регламентированная под-организация внутри банка – CritSit (сокр. от critical situation) – на которую выносятся проблемы, связанные с внешними вендорами и которая разбирает их на уровне ведущих инженеров Сбербанка.

    По словам Андрея Хлызова, в банке была уверенность, что проблему удастся победить, однако эта история притормозила темпы реализации программы централизации: «Мы убрали режим SMT4, и ситуация стабилизировалась, после чего в течение почти девяти месяцев мы в систему больше никого не добавляли».

    После того как проблема на уровне ОС была решена и банк поставил все обновления, включая обновления Oracle, Symantec и прикладного ПО, режим SMT4 был снова включен и подключение банков к системе продолжилось, сказал Хлызов.

    http://tadviser.ru/a/253022

  • #38237

    SPQR
    Участник

    Ну, надеюсь, с тех пор всё пофиксили, самое время мигрировать Оракл с P6 на P7.

  • #38252

    Michael
    Участник

    Кажись в Сбере будет такая миграция, что все ах… 🙂

    Президент Сбербанка Герман Греф назвал неконкурентоспособной IT-инфраструктуру крупнейшего банка страны.

    Сбербанк, в сентябре 2015 года завершивший централизацию IT-систем банка, собирается полностью поменять новую платформу. «Мы очень сильно гордились своей программой централизации IT-систем, тем, как мы серьезно продвинулись за последние годы, инвестировали колоссальные деньги. Это был самый крупный и быстрый проект централизации IT-инфраструктуры в мире. Но как только мы построили наш супер data-center, все закончили, мы пришли к выводу, что мы абсолютно неконкурентоспособны», — сказал президент Сбербанка Герман Греф во время выступления на Гайдаровском форуме в РАНХиГС.
    «В прошлом году мы сделали 40 тысяч изменений нашей системы в год. Если посмотреть на другие банки, мы в шоколаде. Но если смотреть на Amazon, Google, мы ужасно отстаем. Amazon делает 10 тысяч изменений своей системы в день. И ключевая задача, которая стоит перед Сбербанком в этом году, — это увеличивать скорость, мы опаздываем», — объяснил Греф. По его словам, время от разработки продукта до его внедрения должно занимать часы, как у IT-компаний, а не месяцы.
    Греф рассказал, что в ближайшее время Сбербанк полностью поменяет свою платформу. «Мы покупаем пакет акций в российско-американской компании, которая выиграла тендер у Oracle, IBM, у всех, оказалась на порядок выше этих крупнейших компаний», сказал он, добавив, что речь идет об «open source с использованием облачных технологий, искусственного интеллекта, машинного обучения».

    Источник ваще-то РБК:
    http://www.rbc.ru/finances/15/01/2016/5698ce9d9a794791cf2c1748

    Фамилие у автора тоже неплохое: Сирануш Шароян

    • Ответ изменён 2 года/лет, 6 мес. назад пользователем  Michael.
  • #38254

    wpg
    Участник

    Может ему застрелиться? Или в отставку подать? 🙂
    Не, лучше ещё одну систему построить. Это ж сколько бабла…

  • #38271

    Michael
    Участник

    offtop on:

    Предположительное объяснение пурги от Грефа – здесь. Выглядит логично.

    На что якобы нацелился Сбер – здесь.

    offtop off.

    • Ответ изменён 2 года/лет, 6 мес. назад пользователем  Michael.
  • #38273

    barmaley
    Участник

    “Шеф, все пропало!”(c)

    Теперь выкинут все оракл-раки на Power795,  наберут “писюков” (уже закупают на 130M$) да мигрируют в InMemory Data Grid с преферансом да поэтессами ;-)))

     

     

     

Для ответа в этой теме необходимо авторизоваться.