英特尔聚力整合实现可持续的异构计算

接下来的超算普及化时代，英特尔将满足永无止境的计算需求，并将可持续发展作为重中之重。
本文作者：jeff mcveigh
英特尔副总裁兼超级计算事业部总经理
随着我们进入e级(exascale)计算时代并迈向z级(zettascale)计算时代，科技行业也越来越影响着全球的碳排放。据估计，到2030年数据中心的能耗估计将达到全球能源产量的3%-7%①，而计算基础设施将成为新增用电量的主要驱动因素。
今年，英特尔承诺到2040年实现全球业务的温室气体净零排放，并开发更加可持续的技术解决方案。在创造可持续未来的同时满足对计算永无止境的需求，这是高性能计算(hpc)面临的最大挑战之一。这个任务虽然艰巨，但如果我们能够把芯片、软件和系统这些hpc计算堆栈的每个部分都做好，它就是可以实现的。
我在德国汉堡举行的2022国际超算大会(isc2022)上发表了主题演讲，上述内容就是我在演讲中传达的核心信息。
从芯片和异构计算架构开始
英特尔公布了直到2024年的高性能计算产品路线图，期间我们将致力于提供多样化的异构架构。这些架构不仅将使我们能够实现几个数量级的性能提升，同时亦可降低通用工作负载及诸如人工智能、加密、分析等新兴工作负载的能耗。
以内置高带宽内存(hbm)，代号为sapphire rapids的英特尔至强处理器为例，该款处理器能够很好地展示我们如何利用先进的封装技术和芯片创新，为高性能计算带来性能、带宽和节能方面的显著提升。通过封装高达64gb的高带宽内存hbm2e并把加速器集成到cpu中，我们能够释放内存敏感型工作负载的潜力，为这些关键的高性能计算应用场景大幅提升性能。在对比第三代英特尔至强可扩展处理器和即将推出的内置高带宽内存(hbm)的sapphire rapids处理器时，我们发现，后者把气候研究、能源、制造和物理学工作负载的性能提升了2-3倍②。在主题演讲中，ansys首席技术官prith banerjee还展示了内置高带宽内存的sapphire rapids为ansys fluent和parsenet的实际工作负载带来了高达2倍的性能提升③。
为实现跨hpc和ai超算工作负载的几个数量级的性能提升，计算密度是另一必不可少的要素。代号为ponte vecchio的英特尔首个旗舰级数据中心图形处理器(gpu)，已经在复杂的金融服务应用以及ai推理和训练工作负载方面展现出了卓越的优势。
创新不止于此。今天，我们还宣布这款出色数据中心gpu的下一代产品代号为rialto bridge。通过升级ponte vecchio架构，并结合使用下一代制程节点技术制造的增强型芯片子模块，rialto bridge将大幅提高计算密度、性能和效率，同时提供软件一致性。
展望未来，falcon shores是我们路线图中下一个重要的架构创新，即把x86 cpu和xe gpu集成在同一插槽中。这一架构计划将在2024年推出，它将在每瓦性能、计算密度、内存容量与带宽方面均实现超过5倍的性能提升④。
成功的软件战略遵循三个原则：
开放、选择、信任
如果没有软件为芯片注入活力，它将仅仅只是砂砾。英特尔的软件策略是促进整个堆栈的开放式发展，并提供工具、平台和软件ip，以帮助开发者提升工作效率，产出可扩展、更高性能、更高效的代码，这些代码能充分利用最新的芯片创新，没有重构代码的负担。oneapi行业计划为hpc开发者提供了跨架构编程，使代码能透明、可迁移地适用于cpu、gpu和其他专用加速器。
目前，在世界各地领先的科研和学术机构中已有20多个oneapi卓越中心(coe)，它们正取得重要的进展。例如，布里斯托大学科学系的simon mcintosh-smith和他的团队，正在使用oneapi和khronos group的sycl抽象层进行跨架构编程，为在e级计算规模上实现性能可移植性开发最佳实践。他们的工作将确保科学代码能在大规模异构超算系统上实现高性能。
聚力整合：实现可持续的异构计算
随着数据中心和hpc工作负载越来越多采用分布式架构和异构计算，我们需要借助工具来帮助有效管理和应对复杂多样的计算环境。
今天，我们将推出一款开源解决方案intel xpu manager，它可以在本地或远程监测和管理英特尔数据中心gpu。该解决方案旨在简化管理，并通过综合诊断更好地实现可靠性和延长设备运行时间，以及提升利用率并支持固件更新。
针对能耗很高的数据传输和存储任务，分布式异步对象存储(daos)文件系统提供了系统级的优化。daos可以显著地改善文件系统的性能，它不仅可以缩短整体访问时间，而且能够降低存储所需的容量，从而减少数据中心的占用空间并提高能源效率。相比于lustre在i/o500中的测试结果，daos实现了直接写入文件系统性能70倍⑤的提升。
应对hpc的可持续性挑战
我们很荣幸能够与全球志同道合的客户和行业领先的科研机构合作，朝着实现更具可持续性和开放性的高性能计算而努力。我们近期取得了一系列成果——我们与巴塞罗那超算中心合作建立了开创性的risc-v z级计算实验室;并与剑桥大学和戴尔继续合作，将当前的e级计算实验室进一步打造成为新的剑桥z级计算实验室。
独木难支，完整生态的构建需要在制造、芯片、互连、软件和系统等各方面携手共进。通过与整个生态的协作，我们致力于将本世纪最大的hpc挑战转化为前所未有的机遇，创造改变世界的技术，让未来更美好。
注意事项与免责声明：
①《对2020年至2030年期间全球计算机的一次能源使用、电力使用和二氧化碳排放及其所占份额的假设》，作者：anders s.g. andrae，《wseas电力系统汇刊》，15(2020)
②测量依据如下：
cloverleaf
由英特尔于2022年4月26日测试。1节点，2个英特尔至强铂金8360y cpu，72个内核，超线程开启，睿频开启，总内存256gb(16x16gb ddr4 3200mt/s)，se5c6200.86b.0021.d40.2101090208，ubuntu 20.04，kernel 5.10，0xd0002a0，ifort 2021.5，intel mpi 2021.5.1，编译器参数：-xcore-avx512-qopt-zmm-usage=high
由英特尔于2022年4月19日测试。1节点，2个早期的英特尔至强可扩展处理器测试样品，代号为sapphire rapids+hbm，40个以上内核，超线程开启，睿频开启，总内存128gb(hbm2e以3200mhz的频率运行)，bios版本egsdcrb1.86b.0077.d11.2203281354，ucode版本=0x83000200，centos stream 8，linux版本5.16，ifort 2021.5，intel mpi 2021.5.1,编译器参数：-xcore-avx512–qopt-zmm-usage=high
openfoam
由英特尔于2022年1月26日测试。1节点，2个英特尔至强铂金8380 cpu，80个内核，超线程开启，睿频开启，总内存256gb(16x16gb 3200mt/s，双面)，bios版本se5c6200.86b.0020.p23.2103261309，0xd000270，rocky linux 8.5 ，linux版本4.18.，openfoamv1912，motorbike 28m@250次迭代;编译说明：工具：intel parallel studio 2020u4，编译器参数：-o3-ip-xcore-avx512
由英特尔于2022年1月26日测试。1节点，2个早期的英特尔至强可扩展处理器测试样品，代号为sapphire rapids+hbm，40个以上内核，超线程关闭，睿频关闭，总内存128gb(hbm2e以3200mhz的频率运行)，试生产的平台和bios，centos 8，linux版本5.12，openfoamv1912，motorbike 28m@250次迭代;编译说明：工具：intel parallel studio 2020u4，编译器参数：-o3-ip-xcore-avx512
wrf
由英特尔于2022年5月3日测试。1节点，2个英特尔至强8380 cpu，80个内核，超线程开启，睿频开启，总内存256gb(16x16gb 3200mt/s，双面)，bios版本se5c6200.86b.0020.p23.2103261309，ucode版本=0xd000270，rocky linux 8.5，linux版本4.18，wrf v4.2.2
由英特尔于2022年5月3日测试。1节点，2个早期的英特尔至强可扩展处理器测试样品，代号为sapphire rapids+hbm，40个以上内核，超线程开启，睿频开启，总内存128gb(hbm2e以3200mhz的频率运行)，bios版本egsdcrb1.86b.0077.d11.2203281354，ucode版本=0x83000200，centos stream 8，linux版本5.16，wrf v4.2.2
yask
由英特尔于2022年5月9日测试。1节点，2个英特尔至强铂金8360y cpu，72个内核，超线程开启，睿频开启，总内存256gb(16x16gb ddr4 3200mt/s)，se5c6200.86b.0021.d40.2101090208，rocky linux 8.5，kernel 4.18.0，0xd000270，编译器参数：make-j yk_cxx='mpiicpc-cxx=icpx' arch=avx2 stencil=iso3dfd radius=8,
由英特尔于2022年5月3日测试。1节点，2个早期的英特尔至强可扩展处理器测试样品，代号为sapphire rapids+hbm，40个以上内核，超线程开启，睿频开启，总内存128gb(hbm2e以3200mhz的频率运行)，bios版本egsdcrb1.86b.0077.d11.2203281354，ucode版本=0x83000200，centos stream 8，linux版本5.16，编译器参数：make-j yk_cxx='mpiicpc-cxx=icpx'arch=avx2 stencil=iso3dfd radius=8,
③ansys fluent
由英特尔于2022年2月测试。1节点，2个英特尔至强铂金8380 cpu，80个内核，超线程开启，睿频开启，总内存256gb(16x16gb 3200mt/s，双面)，bios版本se5c6200.86b.0020.p23.2103261309，ucode版本=0xd000270，rocky linux 8.5，linux版本4.18，ansys fluent 2021 r2 aircraft_wing_14m;编译说明：商业版本使用intel 19.3编译器和intel mpi 2019u
由英特尔于2022年2月测试。1节点，2个早期的英特尔至强可扩展处理器测试样品，代号为sapphire rapids+hbm，40个以上内核，超线程关闭，睿频关闭，总内存128gb(hbm2e以3200mhz的频率运行)，预生产的平台和bios，centos 8，linux版本5.12，ansys fluent 2021 r2 aircraft_wing_14m;编译说明：商业版本使用intel 19.3编译器和intel mpi 2019u8
ansys parsenet
由英特尔于2022年5月24日测试。1节点，2个英特尔至强铂金8380cpu，80个内核，超线程开启，睿频开启，总内存256gb(16x16gb ddr4 3200mt/s [3200 mt/s])，se5c6200.86b.0021 .d40.2101090208，ubuntu 20.04.1 lts，5.10，parsenet (splinenet)，pytorch 1.11.0，torch-ccl 1.2.0，ipex 1.10.0，mkl (2021.4-product build 20210904)，onednn (v2.5.0)
由英特尔测试于2022年4月18日。1节点，2个早期的英特尔至强可扩展处理器测试样品，代号为sapphire rapids+hbm，112个内核，超线程开启，睿频开启，总内存128gb(hbm2e 3200 mt/s)，egsdcrb1.86b.0077.d11.2203281354，centos stream 8，5.16，parsenet (splinenet)，pytorch 1.11.0，torch-ccl 1.2.0，ipex 1.10.0，mkl(2021.4-product build 20210904)，onednn(v2.5.0)
④falcon shores的性能目标基于截至2022年2月相对于当前平台的预测。结果可能有所不同。
⑤结果可能有所不同。更多信息请访问io500和youtube视频《daos与lustre的性能对比测试》
原文标题：加速创新，打造更具可持续性和开放性的hpc
文章出处：【微信公众号：英特尔中国】欢迎添加关注!文章转载请注明出处。

德国康佳特推出高可扩展性物联网网关系统
华为官方公布了新一批EMUI 11.0版本内测招募机型名单
怎么解决HDMI线远距离传输
小米逆势大涨34.9%，成手机市场的最大黑马
2019年半导体产业将进入商业循环对稳定的一个阶段
英特尔聚力整合实现可持续的异构计算
美国 5G 为何与 4G 相差无几？
比天价护肤品更管用，日本家用美容仪推荐
计算机视觉应用之OpenCV基础教程
芯片设计之仿真工具
Java和C语言的学习难度比较
晶体滤波器的作用是什么
先别着急买华为P9，华为P10即将发布
魅族Flyme6最新消息：Flyme6厉害了三星s7Edge也适配，魅族Flyem6值得更新
黄铁军：未来二十年AI的智力或将超过人类?
DS89C430/DS89C450超高速闪存微控制器存储器接口时序
金融科技在5G到来之后该怎样发展
万有理论:物联网设备互联的“生态链”
在智能产品领域中温湿度传感器的应用
华硕RTX 3060 Ti GAMING显卡测评介绍