NVIDIA发布Volta显卡架构,但频率红利到头了?

nvidia这几年垄断了高端显卡市场,从他们的q1季度财报中虽然也能看到tegra、数据中心等业务有了明显增长,不过营收的主力还是游戏pc市场,q1季度游戏pc市场营收就增长了50%,高端玩家现在买游戏显卡往往是从gtx 1080 ti/1080/1070中选一款了。如今pascal还未显出颓势,今天凌晨的gtc 2017主题演讲上,nvidia ceo黄仁勋发布了volta架构显卡,新一轮升级又要来了。
nvidia能够获得现在的表现很大程度是因为他们的产品路线图比较连贯,从kepler到maxwell,再到现在的pascal架构,nvidia每一代gpu升级都很稳定,短时间内就能完成高端到低端的布局。以pascal这一代为例,首发的是gtx 1080、gtx 1070,接着是titan x,陆陆续续又有gtx 1060 6gb及gtx 1060 3gb,还有gtx 1050 ti、gtx 1050,今年3月份又有gtx 1080 ti、titan xp,马上还会有gt 1030主打入门级市场——不算不知道,nvidia在pascal这一代的gpu产品组合还真是挺多的。
pascal显卡发布一年整了,产品线布局还在完善,不过大家的兴趣点现在已经开始向新一代gpu转移了,特别是今天发布了volta架构显卡——telsa v100,这跟去年pascal架构首发gp100核心的telsa p100一样,也在去年这个时候,我们撰文详细介绍了gp100核心的改进情况,今天我们也会针对gv100核心及tesla v100显卡做更深入的探讨。
早上已经有tesla p100的新闻发布了,大家也了解过基本情况了,我们先来看看tesla v100加速卡的真身,这次同时展示的是两个版本的。
tesla v100显卡真身:nvlink与pci-e版大不同
nvlink 2接口的tesla v100显卡(点击放大,图片来源于heise)
老黄手里曝光最多的就是这个短小强悍的tesla v100,它实际上nvlink版的,跟去年的tesla p100看着很像,毕竟这二者都使用了hbm 2显存,功耗也没有明显增加,应该是直接沿用相同的pcb电路。
pci-e接口的tesla v100显卡(点击放大,图片来源于golem)
pci-e版的tesla v100显卡不太引人注意,找到了上面这张照片,如果跟去年pci-e版的tesla p100显卡对比,可以看出pci-e版tesla v100显卡跟pci-e版p100有很多不同,散热器明显小多了,体积跟nvlink版差不多。
这是去年的pci-e版tesla p100加速卡
telsa v100加速卡规格:volta架构终于来了 tesla v100是针对hpc市场设计的,跟普通消费者没啥关系(属于吃瓜群众买不到买不起系列),之所以引人关注是因为它使用的是新一代volta架构,首发的依然是gv100这种大核心。早上的新闻中大家也看到了它各方面规格都很惊人——815mm2核心面积、211亿晶体管、5120个cuda核心、15tflops浮点性能等等,放在当前的显卡中简直是鹤立鸡群,拿来跑游戏不知道多爽,可惜老黄不卖给消费级玩家。
nvidia volta/pascal与amd vega显卡的规格对比
为此我做了一个详细的规格表,对比的产品除了目前的tesla p100和titan xp之外,还加入了amd的vega 10核心的radeon instinct mi25显卡,尽管还没上市,但amd早前公布过这款显卡的一些信息,比如带宽、浮点性能,不过vega核心的晶体管、核心面积等关键参数还是个谜。
对比gp100核心与gv100核心,可以看出后者规模进一步扩大,sm单元数量从之前的56组提升到了80组,cuda核心数从3584个提升到5120个,计算单元数量增幅为43%。显存位宽及容量都没变化,还是16gb hbm2显存,不过频率有所提升,带宽从前代的720gb/s提升到了900gb/s,非常接近hbm 2显存理论上1024gb/s的带宽了(搭配4颗hbm显存的情况下)。
计算单元的增加也使gv100核心的规模进一步扩大——晶体管数量从目前的153亿增加到了211亿,核心面积从610mm2提升到815mm2,一举创造了nvidia gpu同时也是现代gpu的核心面积新纪录。nvidia这几代大核心虽然核心面积有涨有降,不过之前最多是在600mm2级别徘徊,这一次直接做了815mm2的大核心。
与pascal架构gp100核心相比,volta的gv100核心在架构上更多地是量变而非质变,不过它在架构也不是说没升级,这次gv100核心主要的变化就是针对ai人工智能、dl深度学习等新兴领域专门做了运算单元,我们下面再说这个。
volta架构改进:pascal翻新,新增tensor单元 在之前解析gtx 1080与tesla p100时,我们说过主流的gp104核心跟gp100核心是不同的,前者跟maxwell架构没多大变化,每组sm单元是128个cuda核心,gp100上每组sm单元是64个cuda核心,而后面的gp102核心跟gp100也不同,更像是gp104核心的扩大版,也是每组sm单元128个cuda核心。
gp100核心架构示意图
回到gp100与gv100大核心上,他们的架构也是渐进式变化,也是6组gpc计算单元,不过gp100核心每个gpc单元中是10组sm单元,每个sm单元有64个cuda核心,而gv100大核心中每组gpc单元是14个sm单元,总数应该是84组sm单元,但是现在tesla v100跟tesla v100一样都不是完全体,前者启用了56组sm单元,后者启用了80组sm单元,总计80x64=5120个cuda核心。
gv100核心架构示意图
以上算的是典型的fp32单精度运算单元,除此之外还有fp64单元,gv100依然延续了gp100中fp32:fp64=2:1的比例,每个sm单元中有32个fp64单元,理论上有2688个fp64单元,实际启用的是2560个。
nvidia这两年在深度计算、人工智能等领域投入很多精力,gpu架构也在传统hpc应用之外开始适应这些新兴领域,他们对运算精度要求没这么高,但对性能要求很高,pascal显卡中就开始支持fp16、fp8精度运算,执行这些运算的性能也是翻倍增长。
gv100与gp100核心sm单元的变化
因此在gv100大核心,nvidia还加入了专门的tensor(张量)运算单元,大部分人估计不熟悉这个词,不过还记得前不久google搞的那个tpu在ai性能上吊打gpu的新闻吗?google的tpu处理器中的t也是tensor这个词,大家可以把它当作专用的ai运算单元来看。
gv100核心中增加了专门的tensor运算单元(图片来源于golem网站)
在gv100大核心中,每组sm单元中还有8个tensor单元,这样整个sm单元中就是fp32:fp64:tensor=64:32:8的比例存在,gv100也因此有了tensor计算能力这个指标,tesla p100的tensor计算能力高达120tflops,nvidia宣称它的tensor性能是pascal架构的12倍。
volta支持第二代nvlink技术:300gb/s带宽 除了针对ai等新兴领域改进了tensor单元之外,gv100核心在总线技术上也有升级,这次使用的是nvlink 2,如果你注意看了上面的架构示意图,应该可以发现gv100核心是6组nvlink通道,双向总带宽可达300gb/s。
相比之下,gp100核心上是4组nvlink通道,每个通道带宽是40gb/s,总带宽是160gb/s。
不论nvlink还是nvlink 2总线,相比pci-e 3.0 x16双向32gb/s的带宽都有明显提升,不过nvlkink并不是通用技术,主要用于ibm和nvidia开发的超算平台,这次gv100核心就会用在双方合作的summit超算上,预计今年下半年正式启用。
volta工艺升级:这个12nm有点特别 nvidia在主题演讲中还提到了volta显卡的制造工艺,使用的是tsmc的12nm ffn工艺,听上去要比目前tsmc 16nm工艺更先进,那这种新工艺对volta显卡到底有什么改善吗?我们依照上次的计算简单评估下不同工艺下的晶体管密度及效能。
由于amd vega显卡的核心面积、晶体管数量都是未知数,所以这里只对比了nvidia几代显卡的。
gv100核心是12nm工艺,211亿晶体管,核心面积815mm2,算下来晶体管密度是每平方毫米25.9百万晶体管,与16nm工艺的晶体管密度差不多。实际上,tsmc的12nm工艺也是16nm工艺的改良版。根据tsmc此前公布的资料,它实际是基于16nm ffc工艺改进的,性能是后者的1.1倍,功耗只有后者的70%,核心面积则可以缩小20%。
按照tsmc的说法,16nm finfet plus依然是他们性能最好的16nm工艺,现在gv100用的12nm工艺在性能上还真不一定能超过16nm finfet plus工艺,tesla v100的加速频率就比p100要低一些,但从核心面积来看,计算单元规模增加了43%,核心面积只增加了33%,说明这个12nm工艺对缩小面积还是挺管用的。
至于未来的消费级显卡,gv102、gv104核心上12nm工艺也没跑了,但显卡的核心频率不会再像pascal对比maxwell时代那样大幅提升了,性能提升只能靠计算单元数量增加了。
volta架构性能:比pascal提升50% 说到性能,我们再简单看下nvidia官方资料中介绍的gv100性能提升情况:
dl深度计算性能三倍快,这个因为有tensor单元加持,性能暴涨很正常
hpc性能提升情况
与tesla p100加速卡相比,tesla v100在不同hpc应用中性能提升有所不同,多的能超过70%,少的也有40%以上,官方给出的平均性能提升大约是50%——考虑到计算单元增幅也有43%,性能提升基本上与计算单元数量增幅呈正比,这跟tesla p100时代频率大幅提升带来性能大提升的情况也有所不同。
总结: gv100核心是为hpc运算市场而生的,跟tesla p100的gp100核心一样也不会用于消费级市场,所以这篇文章对我们的意义更多地是分析未来的gv102、gv104核心的geforce 20系列显卡的性能及表现。
与gv100一样,gv102/104核心的cuda核心数量也会进一步提升,nvidia还可以通过阉割对消费级市场没什么用的fp64、tensor单元来降低核心面积及成本,一如gp100到gp102那样。
volta架构使用的12nm工艺在降低核心面积上很有用,但是从gv100上的频率来看,12nm下消费级volta显卡的核心频率恐怕也很难有明显提升了,现在的gtx 10系中高端非公版显卡核心频率都能达到2ghz左右,未来的12nm volta显卡估计也就是这个水平,甚至还有可能更低一些。
如果是这种情况,nvidia要想提高新一代显卡的性能,那么就只能从cuda核心数量上着手了,pascal这一代在频率上占了很多红利,volta又要回到gpu运算单元提升的道路上了。
目前消费级的volta显卡还没有明确的发布时间,今年底有希望推出部分高端产品,不过更有可能的还是2018年q1季度,所以现在的pascal显卡并不会受到什么冲击,大家现在该买什么卡就买什么卡,不着急的也可以等等amd发了vega显卡之后再看。不过nvidia看起来并不担心amd的竞争,黄仁勋在之前的财报会议上表态2017年的市场竞争态势不会有什么变化,换言之就是amd发布的polaris 20及vega 10显卡对他对不会有什么影响。

全球首发亚米级车道导航,华为 Mate 40 系列具备高精度定位能力
生产性服务业是实现工业现代化的重要手段
pcb有铅和无铅的区别
华为发布的AI战略及全栈全场景解决方案
Q1季度太阳能实现营业收入10.14亿元,将持续扩大光伏电站业务规模
NVIDIA发布Volta显卡架构,但频率红利到头了?
BNC公转BNC公测试线PK1600的使用方法
镭拓揭秘2000W手持式光纤激光焊接机不同冷却方式的差异
电子锁WTV语音芯片,内置集成LED显示、红外检测功能,节省30%MCU开发成本
AVX钽电容命名规则详细说明
华为路由Q2体验 高效Wi-Fi扩展方案适用场景广泛
2021年,数据中心将加速部署新兴技术
Interface code implementation
测土配方仪器的原理是什么
专利之争 LED封装龙头亿光接连获胜
昂科技术软件更新支持烧录Belling16位串行可擦除可编程只读存储器BL24C16A-PA
对于电动汽车电池的耐用性看看特斯拉是怎么做的
【麒麟系统】国产系统与***的强强联合
来看看你的工作被机器人取代的几率高不高?
基于Linux设计的倒车雷达系统