推理和训练作为ai/ml关键的一环,无论是通用的gpu,还是专用的推理/训练加速器,都想在各大流行模型和机器学习库上跑出优秀的成绩,以展示自己的硬件实力。业界需要一个统一的跑分标准,为此,各大厂商在2018年根据业内指标联合打造的mlperf就承担了这一重任。
不过随着时间的推移,mlperf几乎已经成了英伟达一家独大的跑分基准,这家gpu厂商凭借自己的产品几乎统治着整个ai硬件市场。这不,近日公布的mlperf training 2.0,就将这些ai硬件公司和服务器厂商提交的具体ai训练成绩公布了出来,其中既有一些新晋成员,也有一些出人意料的结果。
谷歌的反超
这次跑分结果中,最惊艳的还是谷歌的tpu v4系统,谷歌凭借这一架构的系统,在五个基准测试中都打破了性能记录,平均训练速度比第二名的英伟达a100系统快了1.42倍左右,哪怕是与自己在1.0测试下的成绩相比,也提升了1.5倍。
能实现这样的成绩自然离不开谷歌自己的tpu芯片设计,谷歌的每个tpu v4 pod都由4096个芯片组成,且带宽做到了6tbps。除此之外,谷歌有着丰富的用例经验,相较其他公司而言,谷歌是唯一一个在搜索和视频领域都已经大规模普及ai/ml应用的。
tpu v4与a100的对比 / 谷歌
不过谷歌与英伟达并不是直接竞争关系,他们对标的还是使用英伟达gpu系统的云服务公司,比如微软的azure,谷歌也为此特地做了成本对比。如上图所示,在bert模型的训练中,4096个tpu v4芯片与azure 4096个a100芯片对比,谷歌的方案可以节省35%,resnet模型的训练下更是可以节省近50%。
不过以上的成绩在所有8项测试中也只是和英伟达平分秋色,而且随着系统规模的不同,其结果或许会有更多的变化。再者,谷歌的tpu仅限于其自己的云服务,所以总的来说并不算一个通用方案,至少微软和亚马逊这样的竞争对手肯定是用不上。
英伟达地位不保?
除了谷歌之外,还取得了不错的成绩的就是英特尔旗下habana labs的gaudi2训练加速器。这款今年5月推出的处理器,从上一代的16nm换成了台积电7nm,tensor处理器内核的数量因此增加了两倍,使其在resnet-50的训练吞吐量上实现了3倍提升,bert的训练吞吐量提升了4.7倍。
gaudi 2训练处理器 / 英特尔
在与英伟达提交的a100-80gb gpu系统成绩相比,gaudi2在resnet-50上的训练时间缩短了36%;与戴尔提交的a100-40gb gpu系统成绩相比,gaudi2在bert上的训练时间缩短了45%。
从结果来看,已经有不少厂商的ai硬件已经可以在训练上对标甚至超过英伟达的gpu生态了,但这并不代表全部机器学习训练领域。比如在测试中,厂商是不需要将每个项目的测试结果都提交上去的。从这个角度来看,retinanet轻量型目标检测、coco重型目标检测、语音识别数据集librispeech和强化学习minigo这几个项目中,只有基于英伟达gpu的系统提交了成绩。
不仅如此,如果你看所有提交成绩的服务器和云服务公司来看,他们用到的cpu或是amd的epyc处理器,或是英特尔的xeon处理器,但加速器却是几乎清一色的英伟达a100。这也证明了在百度、戴尔、h3c、浪潮和联想这些厂商的眼中,英伟达的gpu依然是最具竞争力的那个。
不可小觑的软件
还有一点需要指出,那就是以上都是封闭组的成绩,他们所用到的都是标准的机器学习库,比如tensorflow 2.8.0和pytorch 22.04等。而开放组则不受此限制,可以用到他们自己定制的库或优化器,这一组中三星和graphcore都根据不同的软件配置提交了成绩,但最亮眼的还是mosaicml。
composer在resnet-50下的训练时间对比 / mosaicml
这家公司所用的加速器硬件同样是和诸多提交者一样的英伟达a100-sxm-80gb gpu,但他们用到的是自己用pytorch编写的库composer。这家公司于今年4月推出了composer,并声称可让模型训练速度提升2到4倍。在mlperf training 2.0的跑分中,使用mosaicml composer的对比组在resnet训练速度上实现了近4.6倍的提升。不过composer虽说支持任何模型,但这个提速的表现目前还是体现在resnet上比较明显,所以本次也并没有提交其他模型下的成绩。
考虑到英特尔等公司为了提升其软件开发实力,已经在收购codeplay这样的软件开发公司,mosaicml作为刚公开不久的初创公司,创始人又是英特尔的前ai实验室骨干,如果能在未来展现出更优秀的成绩,说不定也会被英伟达这样的公司看中。
结语
英伟达常年在mlperf上霸榜,也有不少人认为mlperf跑分成了英伟达的宣传工具,然而事实是英特尔、谷歌等同样重视ai的公司也将其视为一个公平的基准测试,而且mlperf还有同行评审环节,进一步验证测试结果。从以上结果来看,ai训练硬件上的创新仍未停止,无论是gpu、tpu还是ipu都在推陈出新,但跑分结果并不代表任何用例都能达到高性能,还需要厂商自己去调校模型和软件才能达成最好的成绩。
新年十大科学技术列表包括一些你可能听说过的技术
大屏显示时代,LED大屏相比Hisan激光屏对人体的隐形伤害
2元就能买到上千张人脸照片,人脸识别安全隐患再次引发担忧
任天堂,PlayStation和Xbox品牌宣布了一项联合合作伙伴关系
如何测量二极管电容和反向恢复
AI硬件反超英伟达?跑分来看尚不现实
如何正确的选择电流探头
好游戏不缺用户?VR游戏的现状
户外小站的微波频段划分与宽带接入分析
消息称发改委已获高通在华垄断“确凿证据”
Celesco传感器的工作原理
MulteFire 1.0认证计划推出,首批认证的MulteFire无线电和设备方案
IMU姿态滤波算法——Mahony算法:原理与代码
石墨烯产业爆发前夕,专利危机仍未解决
空气能热水器跟普通热水器有什么区别
firefly RK3128开发板介绍
父母心中的满分电视,TCL 75V2大屏电视体验报告
小米6即将发布,魅族Pro7还远吗?
锂电池市场出货量未来几年也将会维持快速增长
基于TDA2005S设计的20W汽车收音机和扩音机电路