POWER8


В этой теме 29 ответов, 8 участников, последнее обновление  Oleg 4 года/лет назад.

  • Автор
    Сообщения
  • #18725

    Sever
    Участник

    IBM огласила основные характеристики нового поколения POWER процессоров.

    Дата выхода чипов на рынок в линейке IBM-овских серверов не оглашена, с большой вероятностью это будет 2014 год.

  • #18728

    Oleg
    Участник

    SMT8 — ответ на Oracle T-Series 🙂
    итого 12х8=96 параллельных потоков на одном чипе

  • #18737

    uxTuaHgp
    Участник

    Круто конечно, но на некоторых типах нагрузки SMT не только не дает выигрыша, но и снижает производительность, причем кардинально.

  • #18743

    Sever
    Участник

    Если оценивать однопоточную производительность Power8, то она уступает POWER6 😉
    Power7 в этом плане был в два раза медленнее Power6; Power8 (как декларируется) будет в одном потоке быстрее первых Power7 в 1.6 раза.

    IBM давно сообразила, что чем больше бестолковых ядер, тем больше можно срубить баксов на лицензиях.

  • #18748

    Oleg
    Участник

    Если оценивать однопоточную производительность Power8, то она уступает POWER6 😉
    Power7 в этом плане был в два раза медленнее Power6;

    ничего подобного, rPerf на ядро
    P6 4.7GHz ~10 rPerf
    P6+ 5GHz ~10.5 rPerf
    P7 3.7GHz ~13 rPerf
    P7+ 4GHz ~14.5 rPerf
    в SPEC разница примерно такая же, как и по личному опыту использования
    понятно что всегда будут особые программисты с особым кодом, чувствительным к out-of-order/in-order, погоде, природе, цене нефти на бирже…
    но частный случай — это всегда частный случай
    знаю людей которые когда-то сравнивали, машину на старшем P6+ 5GHz (конкретно 9119-FHA) с чем-то мидренжевым на младшем P7 3GHz — не увидели прироста и тоже заявили, что «Power 7 медленнее Power 6»

  • #18750

    Sever
    Участник

    Вы понимаете разницу между производительностью одной нити и производительностью ядра при его 100процентной утилизации? Да, во втором случае общий объем полезной работы будет выше, но при необходимости выполнить линейную задачу в один поток P7 сильно проигрывает. Не надо тут упоминать ОСОБЫХ программистов, все программисты в общей своей массе пишут код такой же, как и двадцать лет назад, ничего не изменилось. Или вы знаете таких, которые отлично пишут под стопроцессорные системы с SMT4? Дык с какого тогда туя большие заказчики переводят свои 795ые в SMT1 под Оракл? До каких значений усыхает rperf ядра если отключается SMT? А деньги то уплачены за полноценные ядра…

    Да, системы на базе P7 в общей своей массе работают быстрее и лучше при сравнении с системами на предшествующих паверах. Но это заслуга не процессоров, а всех остальных их компонентов. Производительность была бы еще выше, если бы плотность ядер на кристалле была бы ниже, число SMT было бы вменяемым, а рабочая частота выше.

  • #18753

    uxTuaHgp
    Участник

    Ну по всей видимости повышение частоты ведет к экспоненциальному росту энергопотребления и тепловыделения, поэтому есть единственный путь экстенсивного увеличения производительности: увеличение количества ядер и параллельных потоков.

    Цена лицензий по ядрам — вопрос неприятный, но есть еще и задачи, которым важна скорость выполнения одной нити, а не огромное их количество.
    И вообще большинство приложений, требующих консолидации вычислительной мощности в одном ящике, страдают от конкуренции за блоки разделяемой памяти и чем больше ядер и потоков, тем жестче конкуренция, тем выше Kernel time и ниже User.

    Эти бесчисленные ядра Power8-9-100 и потоки нужны в серверах начального уровня с 1-4 сокетами для использования под серверы приложений и Web-серверы.
    Собственно SUN-Oracle так и позиционирвали свои T процессоры.

    Для энтерпрайзов же нужны Power6++ или Power7- процессоры с увеличенным кэшем и тактовой частотой и сокращенным количеством ядер и потоков.

  • #18767

    > Для энтерпрайзов же нужны Power6++ или Power7- процессоры с увеличенным кэшем и тактовой частотой и сокращенным количеством ядер и потоков.

    Все зависит от задач, а не от сферы применения.

  • #18768

    uxTuaHgp
    Участник

    > Для энтерпрайзов же нужны Power6++ или Power7- процессоры с увеличенным кэшем и тактовой частотой и сокращенным количеством ядер и потоков.

    Все зависит от задач, а не от сферы применения.

    Давайте пример задачи, требующей именно 128 ядер в одной коробке, которая не решается путем увеличения количества коробок и не имеет проблемы конкуренции за разделяемую память.

  • #18769

    OLTP DB.

  • #18770

    Тут кстати много ребят из банков можно поинтересоваться об их опыте организации процессинга операций по карточкам например.

  • #18773

    uxTuaHgp
    Участник

    OLTP DB.

    OLTP DB
    как раз использует разделяемую память и людям работающим с высоконагруженными БД хорошо известно что такое ожидание защелки (latch wait event), возникновение которого как раз и говорит о конкуренции за доступ к блокам памяти.
    В данном случае лучше иметь меньше процессоров с более высокой частотой/производительностью на ядро.

  • #18776

    Хм. А подробнее, как ожидание защелки зависит от частоты?

  • #18778

    uxTuaHgp
    Участник

    Защелки контролируют эксклюзивный доступ к блокам разделяемой памяти.
    Чем выше частота или производительность отдельного ядра, тем быстрее разрешаются блокировки/освобождаются защелки.
    А количество ядер не дает выигрыша, когда речь идет о ресурсах, которым необходим эксклюзивный доступ.

  • #18779

    > Чем выше частота или производительность отдельного ядра, тем быстрее разрешаются блокировки/освобождаются защелки.

    Почему? Я понимаю, что утвердается, но не понимаю как это связано. Да, в батч процессинге частота вожна из-за того, что тяжелые выборки плохо параллелятся. Но в OLTP где средняя транзакция — неколько кб и/или доли секунды, частота не изменит ничего, поскольку защелка будет занята доли секунды конкретным процессом. И latch wait будет просто от массовости использования защелки а не от частоты.

    Защелка это логический элемент базы данных. Важно лишь то как быстро конкретный процесс её отпустит.

  • #18780

    uxTuaHgp
    Участник

    А какая разница, батч это или короткая транзакция.
    Большое количество процессов может стоять в очереди за защелкой на один и тот же блок в памяти.
    Возможно, конечно, что это из-за кривизны кода происходит.
    Однако такое случается.
    В общем все процессы на десятках CPU встанут в очередь и будут ждать защелку, а трудиться будет один и пока он не отработает, защелку следующему не отдаст.

  • #18782

    Да, но эти процессы упрутся именно в защелку, а не в CPU. Т.е. большая параллельность обнажает главную проблему проектирования подобных баз: драка за общие ресурсы. А когда отключен SMT (при том же количестве ядер) проблема замаскирована ожиданием собственно CPU.

  • #18783

    Oleg
    Участник

    Но в OLTP где средняя транзакция — неколько кб и/или доли секунды

    это миф — в дикой природе все не так
    особые программисты (с)
    недавно столкнулся с тем фактом, что на core banking транзакция может длиться и несколько часов

  • #18785

    Ну сверхнагруженный OLTP конечно редкость, но бывает. Чаще всего смесь: днем oltp, ночью batch. Но у меня имеются в загашники и чистые OLTP, отвечающие за процессы авторизации/аутентификации, правда они по иронии судьбы почти все на интелях.

  • #18788

    uxTuaHgp
    Участник

    Но у меня имеются в загашники и чистые OLTP, отвечающие за процессы авторизации/аутентификации, правда они по иронии судьбы почти все на интелях.

    Видимо им все же не нужна консолидация 100+ ядер в одном боксе?

  • #18790

    Нет, не нужна, но я и не в банке работаю.

  • #18791

    andrewk
    Участник

    необходимость в 100 ядрах в одном блоке встречается довольно редко даже в банках. Сбербанк и один из моих клиентов — единственные заказчики в Европе, использующие LPAR’ы с больше чем 128 ядер. Есть еще клиенты, у которых стоят 795е с большим количество ядер, но ни у одного нет таких LPAR’ов.

  • #18795

    uxTuaHgp
    Участник

    Ну хорошо, 50+ ядер — не диковинка нынче и я бы предпочел, чтобы за эти же деньги у меня были не 50 ядер на 3ГГц, а 25 на 5,5ГГц.

  • #18797

    Anton Bukhman
    Участник

    У нас Т4-4 на OLTP под core banking.
    Нагрузка на CPU в пике 30%(и то пару раз было, обычно меньше).
    Однако лачи бывают, и тогда при не загруженном проце, ощущаются «торможения».

    На процессинге P520(Power6 4 шт.) в среднем загружен на 30%. Закрытие дня(batch) примерно 97%.
    Лачей нет.

  • #18811

    Sever
    Участник

    Вернемся к исходной теме…

    Jeff Stuecheli, who has the title of chief nest architect for the Power8 processor, gave the presentation at Hot Chips going over the feeds and speeds. If the cores on a Power chip are the eggs, then the chief nest architect worries about all of the other things that surround the cores — what Intel calls the uncore regions when it talks about chips.

    The Power8 nest is lined with L3 caches, PCI-Express and DDR memory controllers, various other accelerators to speed up functions that might otherwise run on the cores, and the NUMA interconnects for implementing shared memory across multiple sockets.

    With the Power8 chip, IBM has a few goals. First, the company is shifting from the 32-nanometer processes used for the relatively recent Power7+ chips to a 22-nanometer process. The shrinking of the transistor gates allows IBM to add more features to a die, cranks the clocks, or do a little of both.

    Judging from the Power8, it looks like IBM is content to keep in the same clock speed range as the Power7+ chips — around 4GHz, give or take a little. It’ll also move PCI-Express 3 controllers into the chip package to keep those hungry little Power8 cores fed; these controllers will offer a coherent memory protocol to external accelerators as well as a new cache hierarchy that goes all the way out to the L4 cache.

    As expected, IBM is also goosing the number of processor threads per core with Power8, doubling it up to eight per core. IBM has been vague about how many cores it might squeeze onto a die with the 22-nanometer shrink, and it could have probably done as many as sixteen cores if it had not added so much eDRAM L3 cache memory with the Power7+ and then boosted it even further with the Power8.

    On the workloads that Big Blue is targeting with its Power Systems iron, having more cache and cores running at near peak utilisation is more important than having lots of cores on a die. Just as is the case for mainframes, at the prices that IBM has to charge for Power Systems servers, the chip has to be architected to run at close to full-tilt-boogie in a sustained manner. If IBM can do that, then it can garner the prices it commands and the profits we all presume it gets from Power Systems.

    The Power8 chip is implemented in IBM’s familiar high-k metal gate processes, which include copper and silicon-on-insulator technologies in a 22-nanometer process. The precise transistor count was not given during the presentation, but the Power8 chip weighs in at 650 square millimetres; this is a bit bigger than Power7+, which used a 32-nanometer process, had 2.1 billion transistors, and a surface area of 567 square millimetres.

    The Power8 core has a total of sixteen execution pipes. These include two load store units (LSUs) and a condition register unit (CRU), a branch register unit (BRU), and two instruction fetch units (IFUs). There are two fixed-point units (FXUs), two vector math units (VMXs), a decimal floating unit (DFU), and one cryptographic unit (not labeled in the core diagram above).

    Each core now has eight threads implemented using simultaneous multithreading (what IBM calls SMT8), instead of four threads per core with the Power7 and Power7+ chips. And like earlier Power chips, this SMT is dynamically tuneable so a core can have one, two, four, or eight threads fired up.

    Putting it all together: What does a complete package look like?

    If single-thread performance is the most important thing for a piece of work, a core or set of cores will step down the threading automagically and run it with fewer processor threads. The Power8 core, said Stuecheli, has twice as much L1 data cache at 64KB compared to its predecessor (L1 instruction cache remains the same). Data buses from L1 to L2 cache on the die are now twice as wide at 64 bytes. The core has larger issue queues, improved branch prediction, can handle twice as many data cache misses, and has significantly beefed up prefetching of instructions and data. Add it all up, and at a 4GHz clock speed, a Power8 chip will yield about 1.6 times the single-threaded performance of a Power7 chip from 2010.

    Each core has 512KB of SRAM memory etched right near it. A segmented NUMA-like L3 cache using what IBM calls a «non-uniform cache architecture» or NUCA for short, spans all twelve cores on the die, for a total of 96MB of L3 cache. That’s only 8MB of L3 cache per core, compared to 10MB per core for the Power7+ chip announced last year, but the Power8 has a much more sophisticated main memory subsystem and an L4 cache that obviates the need for so much L3 cache on the die. (More on that in a second.) The L3 cache is implemented using embedded DRAM, as was the case with the Power7 and Power7+ processors.

    At a 4GHz clock speed, you can move data into L3 cache from the external L4 cache at 128GB/sec and from the L3 cache out to L4 at 64GB/sec. Data can be crammed into L2 cache from L3 at 128GB/sec (or back out at the same bandwidth). The pipe from L2 cache into the cores has 256GB/sec of bandwidth, but only 64GB/sec in the other direction. Add it all up, across a twelve-core Power8 chip that works out to 4TB/sec of L2 cache bandwidth and 3TB/sec of L3 cache bandwidth.

    Chip makers have been putting memory controllers onto processors for quite some time now, but IBM has done something clever with the Power8. Instead of picking either an existing DDR3 or a future DDR4 controller for the die, Big Blue has instead created a generic memory controller for the die that speaks out over a high-speed bus to a memory buffer (and now quasi-controller) chip called Centaur. This chip is so named, says Stuecheli, because it is half L4 cache and half memory controller.

    In this case, the Centaur chip is implementing DDR3 main memory, but should IBM want to shift out to DDR4 at some future time, it can swap out the memory cards and their integrated L4 cache and buffer chips that were designed for DDR3 memory for ones that use DDR4 chips without changing anything on the processors.

    All of the memory scheduling logic, caching structures, and energy management features of what was an on-die memory controller with prior Power chips are now in the Centaur chip. That memory link between the Power8 package and the Centaur memory buffer chip has a 40-nanosecond latency and 9.6GB/sec of bandwidth. That Centaur chip is also implemented in IBM’s 22-nanometer processes and includes 16MB of cache memory which is used as L4 cache by the processor.

    Each Power8 chip can have up to eight of these Centaur chips, for a total of 128MB of L4 cache in a fully loaded socket. That socket would have eight memory channels, for a total of 230GB/sec of sustained bandwidth into and out of the processor and the 32 DDR memory ports hanging off one twelve-core chip would have 410GB/sec of peak bandwidth at the DRAM level.

    With 32GB DDR3 memory sticks, each Power8 socket will be able to support 1TB of main memory, and presuming the high-end Power8 machine has 32 sockets like the Power7-based Power 795 server does, that means IBM can deliver a box with 32TB of memory across 384 cores and 3,072 processor threads.

    The Power8 chip will also have integrated PCI-Express 3.0 controllers, bringing IBM’s Power chips on par with competing Sparc T5 and M5 chips from Oracle and Xeon E5 (and soon Xeon E7) chips from Intel. Those PCI-Express ports have an aggregate of 48GB/sec of I/O bandwidth, significantly more than the 20GB/sec that the Power7 and Power7+ chips offered with the combination of the GX++ bus and I/O bridge chip that was used to implement PCI-Express 2.0 slots.

    These integrated PCI-Express 3.0 controllers on the Power8 die provide the transport layer for what IBM is calling the Coherence Attach Processor Interface, or CAPI. And this interface will allow accelerators plugged into the PCI bus of a system — possibly GPU coprocessors or field programmable gate arrays — to easily access data and follow pointers in main memory just like processors themselves do. This is going to be very handy, and has a good chance of getting Big Blue back into the supercomputer racket in a way that didn’t happen with the Power7-based beast formerly known as «Blue Waters».

    Depending on the workload, a Power8 chip will yield somewhere around 2.5 times the performance as a baseline Power7+ chip. Again, we presume those are comparisons for chips running at 4GHz.

    IBM will offer memory cards with 32GB, 64GB, and 128GB capacities, will have a variety of chip packaging options and will use the Power8 chip across a full line of machines, William Starke, the SMP architect for the Power processors, told El Reg. IBM is not being precise about when the Power8 will come to market, with rumours ranging from late 2014 to early 2015, but Starke said those rumours were wrong and that mid-2014 is a better timeline for system launches using the Power8 chips.

    IBM was showing off a part, has systems of all sizes up and running in its labs using the Power8 chips, and has been designing the Power9 processor for quite a while already, according to Starke.

    Источник

  • #18876

    Oldnick
    Участник

    мы ждем сервера с Power8, в IBM в это время тихо анонсирует новый 780 сервак…
    8412+01 IBM Power ESE (8412-EAD)

  • #18883

    Victor Sedyakin
    Участник

    Ну это похоже тот же p780, только для узкоспециализированных решений:
    http://www-01.ibm.com/common/ssi/ShowDoc.wss?docURL=/common/ssi/rep_ca/5/877/ENUSZG13-0245/index.html&lang=en&request_locale=en
    The IBM® Power® ESE, the hardware element of the solution edition…Includes software options: Healthcare and data warehousing workloads using DB2® BLU Acceleration.

    Upd: И отдельно не продается:
    The IBM Power ESE server is the hardware element of the solution. The Power ESE server can currently only be ordered with Healthcare and data warehousing workloads using DB2 BLU Acceleration.
    The Healthcare solution combines the strength of the Power ESE (8412-EAD) system running AIX with the healthcare application software suite from Epic. Epic develops software for mid-size and large medical groups, hospitals, and integrated healthcare organizations, working with clients that include community hospitals, academic facilities, children’s organizations, safety net providers, and multi-hospital systems. The Epic Healthcare software is licensed and purchased from Epic. Refer to the Planning information section for ordering details.

  • #18884

    Oldnick
    Участник

    самое время внедрить в российских поликлиниках.

  • #18885

    uxTuaHgp
    Участник

    Что за госпиталь, которому нужен сервер 780 на Power8?

  • #18889

    Oleg
    Участник

    Что за госпиталь, которому нужен сервер 780 на Power8?

    НАНОгоспиталь? :laugh:

Для ответа в этой теме необходимо авторизоваться.