Как посмотреть температуру компонентов сервера?


Главная Форумы POWER Systems AIX/Hardware Как посмотреть температуру компонентов сервера?

В этой теме 21 ответ, 7 участников, последнее обновление  Pit 8 года/лет, 8 мес. назад.

  • Автор
    Сообщения
  • #1355

    nitalex
    Участник

    Коллеги, подскажите.
    Ситуация. Есть 570 машина. Как можно посмотреть температуру компонентов сервера? B HMC не нашел.

  • #1365

    andrewk
    Участник

    в гугле рекомендуют сделать

    /usr/lpp/diagnostics/bin/uesensor -l

  • #1366

    _KIRill
    Хранитель

    andrewk писал(а):

    /usr/lpp/diagnostics/bin/uesensor -l

    И что показывает? Мне действительно интересно. Нету у меня сейчас машинок… 🙁

    ---As If, But Not---

  • #1367

    andrewk
    Участник

    у меня сейчас под рукой тоже нет — еще не обзавелся дома power’ом 🙂

  • #1369

    andrewk
    Участник

    на моем тестовом lpar’е ответило:
    This function is not supported on this system.
    🙂
    нашел доку в Understanding the Diagnostic Subsystem:
    Display System Environmental Sensors (CHRP)
    This Service Aid displays the environmental sensors implemented on a CHRP system. The information displayed is the sensor name, physical location code, literal value of the sensor status, and the literal value of the sensor reading.
    Note: Runs on CHRP systems units only.
    The sensor status can be any one of the following:
    v Normal The sensor reading is within the normal operating range.
    v Critical High The sensor reading indicates a serious problem with the device. Run diagnostics on sysplanar0 to determine what repair action is needed.
    v Critical Low The sensor reading indicates a serious problem with the device. Run diagnostics on sysplanar0 to determine what repair action is needed.
    v Warning High The sensor reading indicates a problem with the device. This could become a critical problem if action is not taken. Run diagnostics on sysplanar0 to determine what repair action is needed.
    v Warning Low The sensor reading indicates a problem with the device. This could become a critical problem if action is not taken. Run diagnostics on sysplanar0 to determine what repair action is needed.
    v Hardware Error The sensor could not be read because of a hardware error. Run diagnostics on sysplanar0 in problem determination mode to determine what repair action is needed.
    v Hardware Busy The system has repeatedly returned a busy indication, and a reading is not available. Try the Service Aid again. If the problem continues, run diagnostics, on sysplanar0 in problem determination mode to determine what repair action is needed.

    This Service Aid can also be run as a command. The command can be used to list the sensors and their values in a text format, list the sensors and their values in numerical format, or a specific sensor can be queried to return either the sensor status or sensor value.
    The command can be run by entering one of the following:
    /usr/lpp/diagnostics/bin/uesensor -l | -a
    /usr/lpp/diagnostics/bin/uesensor -t token -i index [-v]

    Flags
    -l
    List the sensors and their values in a text format.
    -a
    List the sensors and their values in a numerical format. For each sensor, the following numerical values are displayed as:

    -t token
    Specifies the sensor token to query.
    -i index
    Specifies the sensor index to query.
    -v
    Indicates to return the sensor measured value. The sensor status is returned by default.

    Examples 1.
    Display a list of the environmental sensors:
    /usr/lpp/diagnostics/bin/uesensor -l
    Sensor Token = Fan Speed
    Status = Normal
    Value = 2436 RPM
    Location Code = F1
    Sensor Token = Power Supply
    Status = Normal
    Value = Present and operational
    Location Code = V1
    Sensor Token = Power Supply
    *Status = Critical low
    Value = Present and not operational
    Location Code = V2

    2. Display a list of the environmental sensors in a numerical list:
    /usr/lpp/diagnostics/bin/uesensor -a
    3 0 11 87 P1
    9001 0 11 2345 F1
    9004 0 11 2 V1
    9004 1 9 2 V2

    3. Return the status of sensor 9004, index 1:
    /usr/lpp/diagnostics/bin/uesensor -t 9004 -i 1
    9

    4. Return the value of sensor 9004, index 1:
    /usr/lpp/diagnostics/bin/uesensor -t 9004 -i 1 -v
    2

  • #1375

    Дмитрий
    Участник

    На машинке POWER3 прекрасно работает.
    А на POWER4, POWER5 — нет.

  • #1377

    andrewk
    Участник

    а на каких power5 пробовали? у меня еще кроется немножко надежды, что это оставлено в high-end’ах, но проверить не могу. знаю лишь, что наши борцы с AS/400 на i570 температуру смотрят.

  • #1381

    Дмитрий
    Участник

    p5-520.
    Есть подозоение, что, чтобы это работало, LPAR должен быть в режиме All Resourses и(или) Service Partition.
    На следующей неделе смогу попробовать.

    Про i5 тоже спрошу, есть у нас такая штуковина.
    Кстати, есть такой спец — sever!!! Может, он просветит?

  • #1383

    andrewk
    Участник

    у меня есть 560й с единственным LPAR в режиме All Resources. Точно та же ситуация.

  • #1384

    Sever
    Участник

    IMHO температура — вне зоны ответственности партиции. Только FSP знает о том, какая температура и вышла ли она за допустимые границы. Для разных серверов и моделей могут быть установлены свои критерии по этому параметру. Только при пересечении допустимого значения или при критическом перегреве FSP отправит сообщение на уровень подконтрольных ему партиций.

    Вот пример:
    http://www.sis.com.ua/forums/viewtopic.php?t=2654

    11007201 Ambient temperature is out of range Servicer
    Response: Follow the procedure for the items listed in the FRU List.
    FRU List: AMBTEMP

    11007202 Ambient temperature is back in range Servicer
    Response: No action required. This reference code is logged for information only.

    11007203 Ambient temperature exceeded limit Servicer
    Response: The system will shut down in 15 minutes. Follow the instructions for the items listed in the FRU List.
    FRU List: AMBTEMP

    11007205 Ambient temperature exceeded limit Servicer
    Response: The system will shut down in 20 seconds. Follow the instructions for the items listed in the FRU List.
    FRU List: AMBTEMP

    11007211 Ambient temperature is out of range Servicer
    Response: Ambient Temperature is above nominal for CPU performance. Follow the instructions for the items listed in the FRU List.
    FRU List: AMBTMP1

    11007212 Ambient temperature is back in range Servicer
    Response: Ambient Temperature has returned to nominal. Follow the instructions for the items listed in the FRU List.
    FRU List: AMBTMP2

  • #1393

    Дмитрий
    Участник

    Наш спец по System i сказал: «Каждый должен заниматься своим делом. Температура — это не дело ОС».

    Действительно, какая разница, какая там конкретно температура, пока она в правильном диапазоне? Вот когда выйдет за границу — тогда загорится жёлтая лампочка.

  • #1395

    andrewk
    Участник

    бегать в датацентр, располагающийся за пару тыс км от админа, не очень удобно

  • #1397

    andrewk
    Участник

    выяснил подробности у наших бойцов — у них тоже нет никаких environmental attributes, как оказалось. Они смотрят на Reference Code на HMC. Пока нарылись следующие reference codes:

    11007203 — Ambient temperature exceeded limit
    The system will shut down in 15 minutes. Follow the instructions for the items listed in the FRU List.

    11007201 — Ambient temperature is out of range
    Follow the procedure for the items listed in the FRU List.

    11007205 — Ambient temperature exceeded limit
    The system will shut down in 20 seconds. Follow the instructions for the items listed in the FRU List.

    Procedure in FRU list (AMBTEMP):
    The system detected a room ambient over-temperature warning or fault.

    1. Is the room temperature less than 35 degrees C or 95 degrees F?
    * No: Notify the customer. The customer must bring the room temperature within normal range. Continue with the next step.
    * Yes: Continue with the next step.
    2. Are the system front and rear doors free of obstructions?
    * No: Notify the customer. The system must be free of obstructions for proper air flow. Continue with the next step.
    * Yes: Continue with the next step.
    3. If applicable, do all the positions in the processor subsystem contain processors or fillers?
    * Yes: Continue with the next step.
    * No: Fill any open positions with processors or fillers. This ends the procedure.
    4. Do all the power supply positions contain power supplies or fillers?
    * Yes: Continue with the next step.
    * No: Fill any open positions with supplies or fan books. This ends the procedure.
    5. Are you working with reference code 7201?
    * Yes: This indicates that the room temperature is too high. The customer must bring the room temperature to less than 35 degrees C or 95 degrees F. If the room temperature is less than 35 degrees C or 95 degrees F, continue with the next step. This ends the procedure.
    * No: Continue with the next step.
    6. Perform the following:
    * For model 8203-E4A, 9407-M15, 9408-M25, exchange the control panel. Use the following table to determine the part number for the field replaceable unit (FRU). Then continue with the next step.
    CCIN or FFC Type and model Part number Description Location code
    8203-E4A, 9407-M15, 9408-M25 10N9737 Control (Operator) panel U n-D1
    * For model 8204-E8A, 9409-M50, exchange the control panel. Use the following table to determine the part number for the field replaceable unit (FRU). Then continue with the next step.
    CCIN or FFC Type and model Part number Description Location code
    8204-E8A, 9409-M50 42R5505 Operator panel U n-D1
    * For model 9406-MMA or 9117-MMA, exchange processor 1 and processor 2, one at a time, until either the problem is resolved or you have replaced both processors. Then continue with the next step.

    For each unit, starting with the primary unit and then the secondary units, use the following table to determine the part number for the field replaceable unit (FRU):
    CCIN or FFC Type and model Part number Description Location code
    9406-MMA, 9117-MMA 10N9146 3.5 GHz POWER6™ — 2 core processor book U n-P2-C1
    9406-MMA, 9117-MMA 10N9144 4.2 GHz POWER6 -2 core processor book U n-P2-C1
    9406-MMA, 9117-MMA 10N9139 4.7 GHz POWER6 -2 core processor card U n-P2-C1
    7. After each FRU is exchanged, is the error code that sent you to this procedure still reported?
    * No: The problem has been corrected. This ends the procedure.
    * Yes: Replace the next FRU on the list. If all FRUs on the list have been replaced, call your next level of support. This ends the procedure.

    11007211 — Ambient temperature is out of range
    Ambient Temperature is above nominal for CPU performance. Follow the instructions for the items listed in the FRU List.

    Procedure in FRU list (AMBTMP1):

    Ambient air temperature is too high for optimal performance.

    Air used for cooling the unit is above the temperature at which the unit is designed to run at maximum performance. The following checks will help determine the problem:

    * If the room temperature is above the specified range for the unit reporting this problem, then take steps to lower the room temperature.
    * If the air being drawn into the unit is above the specified range, either move the unit to a place where the air is within range, or take steps to reduce the temperature of the air surrounding the unit. This can be accomplished by moving the source of the air that is too warm.
    * If the temperature of the air at the unit’s air intake is within the range specified contact your next level of support.

    Если найду еще чего-нибудь в доке — напишу

  • #1398

    andrewk
    Участник

    продолжение

    14010085 — The thermal sensor(s) on a processor node has indicated a thermal problem, and one or more DCAs has shut down.
    http://publib.boulder.ibm.com/infocenter/systems/scope/hw/index.jsp?topic=/area7/14010085.htm&tocNode=int_165878

    14010073 — The ambient room temperature is out of specification (too cold). The sensors are located in the EPO panel and read/converted by the BPC.

    http://publib.boulder.ibm.com/infocenter/systems/scope/hw/index.jsp?topic=/area7/14010073.htm&tocNode=int_165865

    14010072 — The ambient room temperature is out of specification (too hot). The sensors are located in the EPO panel and read/converted by the BPC.

    http://publib.boulder.ibm.com/infocenter/systems/scope/hw/index.jsp?topic=/area7/14010072.htm&tocNode=int_165864

  • #1399

    andrewk
    Участник

    http://publib.boulder.ibm.com/infocenter/systems/scope/hw/index.jsp?topic=/arebh/B1112608.htm&tocNode=int_174252

    B1112608
    A critical thermal sensor detected an over-temperature condition

  • #1406

    nitalex
    Участник

    Итого, делаем вывод, что на Power5, Power6 (у нас 570 машина на Power6) мы никак не можем нормально мониторить
    температуру. Только когда она выйдет за рамки допустимой — получим сообщение от сервисного процессора.
    Несерьезно для серверов такого уровня…

    Да и спасибо всем!

  • #1407

    _KIRill
    Хранитель

    На что только не пойдёшь ради IBM. Даже на сайт их зайти пришлось. Можно мониторить температуру. Можно.
    Есть такая штука Active Energy Manager. Позволяет просматривать температуру в real-time.
    ftp://ftp.software.ibm.com/common/ssi/sa/wh/n/pow03002usen/POW03002USEN.PDF
    На 16 странице этого документа даже картинка красивая есть. с показаниями.
    Так что IBM может всё. Ну или почти всё. B)

    ---As If, But Not---

  • #1408

    Sever
    Участник

    угу.
    Средства мониторинга и управления есть, но это задача не уровня партиции. Партиция должна работать над прикладными задачами, не её это уровень ответственности следить за температурой. Решения принимаются на уровне FSP и на более высоких уровнях управления.

  • #1409

    _KIRill
    Хранитель

    sever писал(а):

    угу.
    Средства мониторинга и управления есть, но это задача не уровня партиции. Партиция должна работать над прикладными задачами, не её это уровень ответственности следить за температурой. Решения принимаются на уровне FSP и на более высоких уровнях управления.

    Абсолютно согласен.

    ---As If, But Not---

  • #1412

    Дмитрий
    Участник

    Зачем «бегать в датацентр за несколько километров»?

    Про жёлтую лампочку я условно написал — все сообщения идут в HMC — service Focal Point. Можно настройить electronic Service Agent и получать эти сообщения по почте.

    AEM — штука хорошая, но только это фича не AIX, а, скорее, IBM Director. И работает (если не ошибаюсь) только с POWER 6.

  • #1715

    warlock
    Участник

    andrewk писал(а):

    а на каких power5 пробовали? у меня еще кроется немножко надежды, что это оставлено в high-end’ах, но проверить не могу. знаю лишь, что наши борцы с AS/400 на i570 температуру смотрят.

    p590/POWER5 — не работает.
    вообще, данные по мониторингу температуры как компонентов, так и environment есть в ASMI. но видны они только при входе с правами CE 🙂

  • #2560

    Pit
    Участник

    P595: /usr/lpp/diagnostics/bin/uesensor -l
    This function is not supported on this system.

Для ответа в этой теме необходимо авторизоваться.