Система 100% в sys


Главная Форумы POWER Systems AIX/Hardware Система 100% в sys

В этой теме 10 ответов, 4 участника, последнее обновление  Александр Фролушкин 5 года/лет, 10 мес. назад.

Aliexpress INT
  • Автор
    Сообщения
  • #13517

    andrewk
    Участник
    Aliexpress INT

    Пятница, вечер, не могу залогиниться на одну систему. Наблюдаю там странную картину – загрузка 100%:

    vmstat:

    System configuration: lcpu=4 mem=15360MB ent=0.50

    kthr memory page faults cpu
    —– ———– ———————— ———— ———————–
    r b avm fre re pi po fr sr cy in sy cs us sy id wa pc ec
    1 0 939378 2135940 0 0 0 0 0 0 2 592 174 0 99 1 0 1.01 202.8
    1 0 939378 2135940 0 0 0 0 0 0 1 62 184 0 99 1 0 1.01 201.7
    1 0 939378 2135940 0 0 0 0 0 0 1 1216 212 2 98 1 0 1.04 207.3
    1 0 939378 2135940 0 0 0 0 0 0 126 177 229 0 99 1 0 1.04 207.9
    1 0 939378 2135940 0 0 0 0 0 0 3 189 154 0 99 1 0 1.01 201.9

    lparstat:

    System configuration: type=Shared mode=Uncapped smt=On lcpu=4 mem=15360MB psize=16 ent=0.50

    %user %sys %wait %idle physc %entc lbusy app vcsw phint
    —– —– —— —— —– —– —— — —– —–
    0.2 99.3 0.0 0.5 1.01 202.2 25.3 11.32 443 185
    0.1 99.4 0.0 0.5 1.01 201.5 24.9 10.72 389 193
    0.2 99.3 0.0 0.5 1.01 202.0 25.0 11.11 452 182

    и вроде ничего страшного и нет, но пятница, вечер, и я уже ничего не понимаю. Какая сволочь могла съесть все системное время?

  • #13518

    andrewk
    Участник

    увеличил количество процессоров в 2 раза, появилось 50% idle, но в систему зайти все равно не смог… помогла только перезагрузка

  • #13519

    uxTuaHgp
    Участник

    не lrud или syncd в топе?
    Может с дисками беда, засинкаться не может?

  • #13520

    andrewk
    Участник

    в топе были процессы ssh, никаких системных процессов и близко не было. Проблем с дисками тоже замечено не было. Если бы sync слишком долго работал бы, я думаю, это было бы отражено как wait, а не как sys.

  • #13521

    uxTuaHgp
    Участник

    согласен

  • #13524

    Дмитрий
    Участник

    ПятниЦЦо приходил? 😉

    ты же понимаешь, что на основе этих данных ничего сказать нельзя.
    Только вопрос на засыпку – если ты “не мог залогиниться”, то как ты получил vmstat/lparstat и почуму тогда ты не запустил ps/topas/tprof?

  • #13525

    andrewk
    Участник

    угу, приходил. сегодня вообще замечательный день был – на 4х серверах отвалился automountd, на двух сдохла вебсфера, а под конец дня – еще это.
    ps запускал, topas не мог, tprof не пробовал. секрет очень простой – несмотря на то, что ssh вис намертво при попытке логина на сервер, отдельные команды он выполнить вполне мог, поэтому – ssh server ps -ef работало на ура, а вот ssh server topas работать в принципе не могло из-за отсутствия терминала.

  • #13526

    Дмитрий
    Участник

    ps может показать %cpu.
    ещё есть секретная команда vtmenu
    :blink:

    ssh был в топе? чтобы он так загадил cpu, это что-то загадочное.

  • #13527

    andrewk
    Участник

    ssh, загаживая cpu, показывается как user%, а не как sys%, а у меня процент именно sys был 99%. Т.е. ssh зажирал оставшийся для user 1%. секретную команду я знаю, но если логин не работает, то он не работает. вот только не знаю такой секретной команды, которая бы показывала кто там в кернеле все 100% времени зажрал.

  • #13528

    Дмитрий
    Участник

    system dump с HMC?

    впрочем, в пятницу вечером, да если надо срочно, то кто-ж об этом задумываться будет – от всех без один reset.

  • #13534

    У меня немного похожие симптомы были когда лун с rootvg отваливался от партиции

Для ответа в этой теме необходимо авторизоваться.