一年一度的国际超级计算大会(supercomputingconference,以下简称sc)上,每次都有一个非官方的主题出现。过去两年的焦点是机器学习(machine learning)和深度学习(deep learning),而在之前则是大规模数据密集计算,以及利用云重塑超级计算未来发展方向的潜力。
所有这些主题都有一个共同点,那就是:它们的重点都不是cpu处理器。实际上,它们都是围绕x86架构下的cpu性能提升或生态系统发展的相关话题。回想一下,近年来我们最后一次看到硬件设备成为大会的核心主题,还是在第一批大规模gpu超级计算机进入500强榜单时,然而它们只是加速器而不是设备的核心。
在今年的sc17上,核心处理器再次成为了非官方主题。基于arm架构的硬件和软件生态系统进行了广泛的演示,cray等超级计算公司还展示了全面的系统集成效果,很多基准测试的结果足以与英特尔的最先进产品相抗衡。
基于arm处理器的“isambard”超级计算机将包含10,000个内核(采用cavium的thunderx2 arm处理器),将于明年在英国布里斯托大学面世,负责开发该超级计算机的团队一直致力于基于arm的hpc系统的研究和开发工作。我们现在看到,在基于大量开发工作铺垫的arm系统中,最著名的当属巴塞罗那超级计算中心的mont blanc(几年前开始采用双cortex-a15 arm,现在基于cavium thunderx2 arm处理器)。
mcintosh-smith和他的团队日前公布了一些很有意义的基准测试结果。这次基准测试采用了cray 8节点设备集群和32核thunderx2 arm处理器,并与英特尔skylake和broadwell解决方案进行了对比。下面列出了在多种hpc应用中进行对比的基准 -
mcintosh-smith表示,总体而言,以内存带宽密集型的任何应用都能够在thunderx2上很好地运行,性能显著优于 skylake。然而对于偏向浮点密集型的应用来说,因为skylake使用了更宽的向量运算器所以会更胜一筹,但是thunderx2 能与broadwell平台旗鼓相当。如果继续增加高带宽内存,测试结果会怎么样?这将会非常有趣。
基准测试结果请参见下图:
内存带宽密集型的优势在openfoam上的hpc应用中体现得最为明显——openfoam是一种开源cfd应用,通常更多地用于商业和科研领域的高性能计算。上图的基准测试报告显示,thunderx2的openfoam测试结果要好于skylake 和 broadwell 。
天气和气候模拟代码也显示内存带宽密集型应用的性能会有同样的提高。上图显示了在thunderx2上测试英国气象局(met office)的生产代码的情况——nemo是一种海洋模拟代码。
“初步的结果显示,对于gromacs、cp2k和vasp等计算密集型的应用,不同处理器之间的性能差距很小。而内存带宽密集型的应用则可以显著看出不同处理器之间的差异。这是因为,尽管这些代码可受益于x86处理器的更广泛向量单位,但thunderx2可以借助更多内核和更高的时钟速度来进行补偿,“mcintosh-smith说。
随着高端cray xc50系统的面世,我们将在下一届超级计算大会上看到基于arm处理器的实际生产环境中的超级计算机的更多测试结果。
isambard项目架构请参见下图:
直到今天,很多hpc arm观察家都知道isambard是cray的机型;但如果他们知道这家超级计算机生产商选择了一条更加艰难的道路,将thunderx2 arm处理器与业内著名的aries互联芯片相集成,并可以运行全套cray软件的话,很多人肯定会大吃一惊。相比较而言,如果把thunderx2添加到cs storm系列,而不是基于aries的产品系列中,对cray来说将简单得多。但在mcintosh-smith看来,这恰恰彰显了cray将arm广泛用于hpc领域的坚定决心。
mcintosh-smith认为,将来不同的arm选项可能会采用同一种专用的部署方法。“将来,基于arm的hpc将增强向量功能,达到与其他cpu厂商不相上下的水平。下一代arm产品将具有和任何其他厂商产品相当的向量宽度。”
有趣的一点是这些结果基于单纯优化内核数量和基本条件后的编译结果,只进行了几个小时的微调。mcintosh-smith表示,这些今天实现的突飞猛进,实际上是多年来在基于arm的hpc系统上坚持不懈的努力结果。在硬件就绪后,arm在hpc应用中所需的软件也会更快到位,随着面向超级计算机的arm处理器的正式上市,整个行业将迎来架构改造的新纪元,arm架构将在hpc领域揭开广泛处理器选择的新篇章。
文远知行WeRide完成B轮总融资金额达3.1亿美元
LED大屏质量是如何得到保证的
锂离子电池的结构以及分类介绍
百度徐伟宣布入职地平线 担任通用AI首席科学家
基于GP21+EFM32的超低功耗超声波热量表
多种HPC应用中进行对比的基准
浅谈DD马达的功能特点
特斯拉的国产化脚步加快,国内PCB板块收益
睿思芯科正式加入openEuler社区
认识静电?静电是什么?
红米Note7Pro评测 非常适合性价比用户选择
RS232串口通信实验
光伏变频器的原理是什么
电子储能材料企业海星股份发布2022第一季度报告
OTAA和ABP入网方式的区别
示波器与频谱仪有什么区别
8Bitdo手柄固件更新支持任天堂Switch:更多选择
移动智能机器人如何为我们服务
基于金属有机框架材料的新型分子印迹光电化学传感器用于食品中土霉素的检测
电力变压器的用途