Проблема с NMON-ом: Не могу определить есть проблемы с I/O Wait или нет?


Главная Форумы POWER Systems AIX/Hardware Проблема с NMON-ом: Не могу определить есть проблемы с I/O Wait или нет?

В этой теме 7 ответов, 3 участника, последнее обновление  Alexander Teterkin 8 года/лет, 2 мес. назад.

  • Автор
    Сообщения
  • #5397

    Alexander Teterkin
    Участник

    Есть вопрос по поводу собираемой NMON статистики.
    Отличный инструмент, но, похоже, некоторые результаты не соотносятся друг с другом или я что-то не понимаю.
    Во вложении ( ) поместил картинки для наглядности.
    Если посмотреть на страницу LPAR (LPAR.png во вложенном архиве), все выглядит замечательно (VP_Wait% нет совсем, Процессоров используется не более 50% от того что есть).
    Если посмотреть на страницу CPU_ALL page (CPU_ALL.png), тоже все замечательно (хотя здесь уже показывается высокая нагрузка на процессоры, но Wait% нет).
    Но если посмотреть на страницы с детализацией по процессорам (CPU01.png, CPU02.png, CPU03.png,CPU04.png), видно, что почти везде высокий wait%.
    Также не понятно, что означают неимоверно маленькие значения Wait% на странице SYS_SUM (SYS_SUMM.png). Значения маленькие и если их суммировать, то они не образуют в сумме 100%. Также не понятно, как значение Wait% на данной странице соотносится с детализированными страницами по процессорам?
    Если предположить, что все таки у нас есть большой %Wait, хочется понять, откуда он берется:
    — Сетевого трафика на странице NET (NET.png) нет совсем.
    — Диски, судя по странице DISKBUSY (DISKBUSY.png), не нагружены.
    — Вроде нет никаких проблем на странице PROC (PROC.png).
    На самом деле я полагаю что диски должны быть нагружены (в это время было запущено создание индексов в базе Oracle в несколько потоков которые создавались много часов).
    Пока не ясно как согласуются между собой эти результаты.
    Кто может, помогите. Помогите, кто может. 🙂

  • #5398

    Alexander Teterkin
    Участник

    Опс… вложение не прошло (ограничение на 120K), сейчас картинки уменьшу…

  • #5400

    Alexander Teterkin
    Участник

    А вот и несколько уменьшеное вложение с картинками: [file name=NMON_problem.zip size=120470]http://www.aixportal.ru/media/kunena/attachments/legacy/files/NMON_problem.zip[/file]

    Attachments:
  • #5402

    Владимир
    Участник

    Судя по графикам проблем нет ни с сетью ни с дисками, высокие пиковые значения I/O wait могут объясняться тем что ваш сервер долго ждёт ответа от какого-то другого сервера, с которым взаимодействует по сети. Но больше всего меня смущают просто огромные значения SYS% с графика CPU_ALL

  • #5406

    Alexander Teterkin
    Участник

    Спасибо за ответ.
    В данном случае сервер не может ждать ответа от другого сервера, т.к. это свежеустановленная операционная система и задача всего одна: база Oracle в которой создаются индексы.
    Меня больше всего удивляет именно противоричивость: в одном месте есть iowait, а в другом — нет. Судя по форуму на DeveloperWorks создатель NMON-а вообще предлагает на некоторые страницы отчета не обращать внимания. Но как можно использовать ПО, если в нем есть внутренние противоречия?

  • #5407

    Alexander Teterkin
    Участник

    Leto писал(а):

    Но больше всего меня смущают просто огромные значения SYS% с графика CPU_ALL

    Это не SYS%, а USER%. Проошу прощения за маленький размер картинок.
    Да и вообще Найджел Грифифс (создатель NMON) вот здесь сказал на него не смотреть:

    Utilisation is so misleading for shared CPU LPARs that I am thinking for removing the data and graphs completely — just to remove all questions about them on this forum 🙂

    😀

  • #5422

    Oleg
    Участник

    судя по RunQueue и графикам — выполнение шло в один поток, на единственном CPU
    на этой P520 случайно нет других LPAR-ов? 🙂
    а вообще-то, это скорее всего Oracle в один поток все таки индексы строил

  • #5425

    Alexander Teterkin
    Участник

    Спасибо за ответ. НО сейчас это не так существенно, т.к. с тех пор алгоритм построения индексов сильно модифицировали (скорость увеличилась аж в 5 раз).
    Мой вопрос грубо говоря звучит так: Можно ли доверять NMON как и раньше, раз идет такое несоответсвие между страницами отчета (IOWAIT на страницах CPUx и NOIOWAIT на всех остальных страницах) или вернуться к старому доброму sar-у?

Для ответа в этой теме необходимо авторизоваться.