Imagination的桌面GPU来了：这次要攻坚Windows游戏市场

本文来源：电子工程专辑
作者：黄烨锋
近代图形计算市场上，作为ip供应商imagination重返高性能桌面市场，应该是2020年img b-series gpu ip的发布。关注imagination的读者应该知道，在imagination还自己造gpu的时代里，上世纪90年代，这家公司也是pc显卡市场的角逐者之一。
当代imagination的gpu ip，在桌面市场的一个重要客户，比较众所周知的就是芯动科技（innosilicon）——目前已经出货的风华系列显卡用到了img b-series的gpu ip，具体应该是bxt。我们在近期imagination举办的img dxd系列新品发布会现场，也见到了风华系列gpu的身影——现场的工作人员在演示用它跑《王者荣耀》。而imagination这次新发布的img dxd系列新品也是主要面向桌面和云游戏市场的。
发布会现场展示，芯动科技的风华2号显卡，基于img b-series
自2019年，imagination发布img a-series系列gpu ip后，imagination保持着按照字母序列做产品更新的传统。img dxd自然属于d-series中的一员。dxd中的后两个字母某种程度说明了其桌面市场定位——实际上，当前imagination的gpu ip产品覆盖领域已经从此前广为人知的移动市场，扩张到了汽车、消费、桌面和云游戏领域。今年1月，我们也详谈过dxt架构——dxt更多是面向移动设备的。这次我们来谈谈着力于面向桌面端的img dxd。
img dxd更新概览
有关img dxd更新，imagination方面的着重宣传点大致上包括：单核性能提升——包括架构演进和规模扩大带来的性能提升、directx 11.0支持，以及虚拟技术对于云游戏的原生支持。
性能方面，imagination technologies前瞻技术副总裁kristof beets将img dxd与bxt做了单核性能比较，提及dxd性能相比bxt提升了2.25倍。
imagination technologies前瞻技术副总裁kristof beetsimg dxd核心标定规格是dxd-72-2304，前文已经谈到d是最新的d-series新品，xd表明了市场定位。后面的数字部分，72是指纹理填充率（72 gtexel/s，每秒72g的纹素）；2304则是指fp32算力，约为2.3tflops（@1ghz频率）。实际上，关注过dxt的读者应该不难发现，dxd的这一核心规格和dxt-72-2304基本一致——只不过dxt作为主要面向移动设备的产品线，还有dxt-8-256和dxt-48-1536可选。宣传中2.25倍性能提升是相较于bxt而言的，从bxt-32-1024标定大致就能看得出来。可能部分读者更关心dxd相比于cxt的性能提升有多大。imagination之所以选择bxt来比性能，而非cxt，大约是因为已经上市的桌面gpu产品选择了bxt，如芯动科技的风华2号。而且cxt这代产品的宣传重点是powervr photon光追架构的应用。从cxt标定“cxt-48-1536 rt3”的典型规格，大致也能看出两者规模与性能上的差别。dxt-72-2304发布时也曾言明，相较于cxt性能提升50%，包括算力和纹理性能——可供参考。其次，img dxd的关键特性在于directx 11支持——强调对directx支持，实际也是在强调dxd的桌面定位属性，以及对于windows游戏的支持。虽说directx 11并非最新的directx api版本，但kristof给出了下面这张饼图，用以说明当前directx 11仍然是pc游戏选择图形api中最为广泛的平台。包括《原神》《cs2》《博德之门3》《dota2》等在内现在比较流行的游戏也仍在使用directx 11。“实现了完全的硬件支持，包括所有的新特性，都通过硬件实现，并非模拟或软件方式。”kristof说。有关图形api，img dxd也支持包括opengl 4.6, opengl es 3.2, vulkan 1.3和opencl 3.0在内的开发生态。另外，在有关directx的支持问题上，kristof也提到将来在更新的版本方面也会持续跟进：“我们在实现windows的支持方面经验也比较多，其一致性测试、品质要求方面都相当严格。所以我们需要时间，确保产品上市时满足生态系统和所需的品质要求。我们不会急于求成。”
imagination官网则提到，从directx 11_0的特性支持开始，img dxd因此也就为云游戏、桌面图形体验做好了准备。这也就相关云游戏支持的另一个属性了：多核、去中心化的规模缩放，以及相当重要的hyperlane虚拟化技术，在云上确保安全性和性能管理的情况下，支持多玩家。
有关dxd核心变化与性能提升先来看看dxd-72-2304的单核构成：熟悉dxt的读者，对此应该也不会陌生。
这样一个dxd核心内部有3个spu单元（scalable processing unit）；每个spu单元内包含有3组tpu（texture processing unit)、usc（unified shading cluster），以及配套的共享逻辑单元（几何与光栅化单元）。从rogue架构时期就关注imagination的同学应该也都知道，usc里面主要就是alu核心了。新发布的dxd，和dxt这种移动平台相比，差异应该主要在于一个spu单元内部的usc和spu数量。xt系列此前是每个spu只有一组或者两组usc/tpu的。从dxt开始，单个spu内部可扩展到3组usc/tpu。所以如果和更早的bxt比较的话，那么实际上bxt单个spu单元内就只有两组usc/tpu。换句话说，d-series的提升是进一步在基础的spu可缩放处理单元上堆料——以及后文会提到更多核心、更多计算单元。kristof评价为brute force scaling，大力出奇迹。不过实际上，从b-series到d-series，算力单元架构层面应该也是有变化的，“许多精细化的架构调整（fune architectural tuning）”。从上面这张图来看，alu是128-wide的warps——好像从a-series开始这就是传统了；浮点性能翻番，包括每周期fp16是512次操作，fp32则为256；local memory本地存储也提升到了32kb。对于directx的支持，也体现在tpu方面的变化，包括bcn格式支持——bcn是一种direct3d 11 sdk支持的纹理压缩格式。kristof也提到所有固定功能单元也在设计上做到了对于directx需求的完全支持。尤为值得一提的是右下角的risc-v固件处理器——从img a-series时代开始，这颗小型处理器也是个传统——完全可编程，主要用于gpu整体任务执行的灵活性：相关数据流、执行、优先级等各种gpu内部的活动，任何事件、决策都通过这颗处理器控制与决定，也就减轻了host cpu的工作。kristof在答记者问时说，以前imagination的gpu ip这部分会采用某种内部指令集的cpu架构，在编译器、工具流等各方面都比较受限制。固件处理器采用risc-v之后，也就有了广阔的生态可应用各种最新的工具和标准流程，“的确是帮助我们进入到了新的时代。”kristof说，不仅“管理负载调度、处理各种gpu生成的事件是基于固件处理器”，而且可“与系统中的其他ip模块进行弹性交互，比如到其他模块的基于硬件的事件，像是其他类型的处理器或者显示控制器，达成更低的延迟和对功耗管理的直接控制。”“比如说，gpu在低利用率的情况下，就可以降低频率电压。对于固件处理器而言，在soc层面可以有相当多的弹性化交互。”与此同时，“固件处理器还用于性能分析和各种debug：包括软件开发者做步进式的debug，基于硬件的debug。”imagination在新闻稿中提到，现在的这种设计相比过去“将gpu管理性能提高40%”。除了固件处理器，最高层级dxd还有l3 cache，axi bus总线界面等组成部分。据说cache架构也有提升，“以满足高性能gpu的需求”。架构部分，这次imagination没怎么在发布会上提光线追踪这个原属于imagination的传统艺能。从dxt此前强调的光追实现来看，dxd应该也能加入rac从硬件层面实现光追（基于spu做rac光追加速集群的搭配）。猜测imagination之所以没有在dxd架构上强调光追，是因为directx 11实际上还没有对光追做出正式支持。从核心数目角度，这次发布会主要谈论的是mc1, mc2的配置方案，也就是上述dxd-72-2304的单核与双核配置。kristof说设计上最多可以达到4个核心——组成一个大的系统。其实在去年7月的khronos &imagination seminar技术研讨会上，imagination分享过cxt时代多gpu显卡的进一步性能扩展；或者也可以基于chiplet来构成更大的gpu，因为imagination的gpu ip这几代都在采用松散、去中心化的逻辑，达成更好的设计伸缩性和灵活性。“其实我们在多核设计上，核心之间也采用标准、少量的连接，也就能够与chiplet设计兼容。在不同的市场上，我们也参与了不少标准化组织。”kristof在采访中说，“比如汽车市场就在看标准化，我们在这个领域也很活跃，当前正和一家我们还没有宣布的客户做讨论，采用chiplet技术来构建解决方案。”最后做个双核dxd-72-2304的性能总结，如上图所示：性能数字基本就是mc1的性能翻番，包括1ghz下纹理填充率144 gtexel/s，fp32算力4.6 tflops，fp16算力9.2 tflops fp17，基于int8的ai算力18 tops。另外，到具体的负载上，imagination将dxd-72-2304mc1与bxt-32-1024mc2做了对比。kristof说之所以用bxt的双核来比dxd的单核，是考虑到让双方达成尽可能相似的性能配置。即便如此，dxd这边依然多出了12%的alu和纹理资源，对比结果如下图：这4个负载中，最高提升幅度有60%，最低也有20%。所以综合系统性能，单核dxd相比于双核bxt提升幅度在40%左右——这个数据应该是最有参考价值的了。
注意dxd相比于bxt高出的性能部分，其中灰色代表的是多出的alu算力资源，而白色部分则表现出了架构调整带来的效率提升。可见dxd也不光是靠堆料达成的性能提升。只不过imagination方面并未具体去谈这对比的4个负载究竟是什么负载。kristof解释说：“提升最大的是其中最复杂的两个负载，负载1和负载2，代表的是高端游戏场景——在桌面市场是具有代表性的。”
其他相关特性，与云游戏支持除此之外，再来谈一谈其他的一些关键特性——虽然其中的绝大部分在此前的几代产品中也已经实现了。比如说我们过去提过多次的fsr（fragment shading rate），这是个有些类似于vrs可变速率着色的技术：可以理解为对画面中不怎么重要、不需要高精度渲染的区域，降低处理量，与此同时对观感和体验影响又几乎可以忽略不计，起到降低负载、功耗，提升效率的效果。
更具体地说，是基于区域（zone）来做shader着色执行，而不是针对每个像素做着色。比如说针对2x2, 2x4或者4x4区域做一次shader执行，大幅降低着色开销，降低功耗、带宽需求，也就变相带来了性能的显著提升。
在性能和效率所做的优化里，一些关键特性还包括2d双速率纹理、流水线数据主控、通过astc hdr支持增强视觉细节等。有关2d双速率纹理（2d dual-rate texturing），此前imagination就解释过，他们观察到包括浅景深、bloom、模糊之类的效果和负载，不少瓶颈出在tpu吞吐上，但一味扩充tpu规模也不合理。所以开发团队搞了这项技术，达成后处理效果的更加高效，对应的核心配置可因此实现每时钟周期处理双倍数量的双线性过滤纹理采样，也就是双倍的执行率。kristof这次解释说传统的gpu纹理，是拿到一个图像，然后映射到3d对象上，比如一个球面——这就产生了计算复杂性，包括逻辑透视修正等。“但其实我们发现可以用常用的2d操作来完成。”kristof表示，“数据访问和处理变得更加直接，因为只需要读取输入像素、处理，然后再输出就可以。”“在游戏后处理、图像处理、计算摄影等领域，以这种模式来工作可以将吞吐量提高一倍。”而“流水线数据主控”即pipeline data master是将渲染和固件改换工作（包括寄存器编程等），这两个步骤做到了流水线化：也就是说在gpu的上一个工作还在处理执行时，固件就设定下一个工作，减少负载之间不必要的等待，提升性能。还有一项特性是astc hdr支持，基于astc（adaptive scalable texture compression）算法支持hdr输入压缩纹理。这个格式的支持部分应该也是为了达成directx的要求。这部分的最后来谈谈云游戏的支持——就gpu ip层面体现的，主要是对于虚拟化的原生支持。也就是gpu用于云基础设施以后，必然面临算力资源的虚拟化，来达成对多游戏玩家的资源分配与支持。下面这张图是以4核dxd为例所举的例子——这些核心可以单独工作，也可以组合起来工作。或者以1+3或2+2等不同组合方式单独工作，或者协同工作。基于img a-series时期就带来的hyperlane虚拟化技术，每个gpu核心都可以切分成8个独立的硬件管理域，用于跑不同的负载。所以如果是4个dxd核心的话，总共最多也就有硬件级支持的32个虚拟域，用于完全隔离不同的云游戏用户。“这是完全基于硬件实现的，性能损失和开销都做到了最小。”“虚拟化系统注重的是灵活性。”imagination technologies中国区技术支持总监艾克在采访中说，“这项技术可以把用户的数据也进行分离，对每个用户之间的数据做到隔离和保护；同时分担不同负载，提供硬件调度的灵活性——比如有用户在玩大型游戏，而有些则在闲置状态，那么最终我们就能提供节约功耗、灵活度又高的云游戏方案。”
就物理实现问题，据我们所知很大程度是依靠data master数据主控在整个gpu硬件资源之间进行动态的工作分配执行，每个时钟周期不同的模块可以执行不同的任务，多路工作同时进行，硬件级别实现高级调度机制。此前imagination将8路切分称作8条hyperlane，每条lane的内容都做到了隔离。
图形生态与落地情况游戏图形生态主要相关图形api支持，游戏引擎支持，以及游戏开发者方面的合作。图形api的部分前文已经提到，尤其directx 11的支持为img dxd应用于桌面市场做好了准备；和khronos相关的合作就更不必多说了。
而在游戏引擎方面，包括虚幻（unreal）、o3de、godot、roblox等；游戏开发者部分的合作，kristof在发布会上提到了米哈游、光子工作室群、完美世界、网易游戏。kristof在产品发布最后提到，dxd架构已经授权给了多家客户。相信在不久的将来，我们有机会在桌面平台通过基于img dxd的显卡玩桌面游戏。只不过桌面图形生态一直是各类垂直市场上最难啃的一块骨头，毕竟这一领域基本已经发展到了高度成熟状态——当然我们依然乐于见到挑战者的出现。
发布会现场，象帝先天钧系列gpu产品展示从imagination当前的策略来看，未来imagination还准备将旗下的不同ip产品扩展到更多的领域。imagination公司副总裁、中国区总经理刘国军说目前公司的市场布局主要有两个方向，其一是随着包括gpu、cpu、npu ip的产品线扩张，“我们需要寻求更多生态合作伙伴的合作，有更多的合作面”；
其二是“在应用方面，我们扩展到桌面、数据中心，还有这两年汽车方向的应用”，“无论是这次新发布的dxd，还是汽车、iot、edge ai、消费等各个领域”，都会铺开布局。从imagination官网列出产品与解决方案中，仅gpu就同时有dxd, dxt, cxt, cxm, b-series, a-series等不同门类就看得出imagination在覆盖更广阔市场方面的预期。

三星重视研发稳居全球电视霸主之位
搭载讯飞星火认知大模型，无线智能键盘助力智能办公
SpaceX火箭因天气条件恶劣推迟一周发射
共享空调现身广州？为了搭上共享这趟车，出来这么多“伪共享”
随着补贴的退坡与消失国家对新能源汽车市场开始“放手教育”
Imagination的桌面GPU来了：这次要攻坚Windows游戏市场
基于Nios软CPU内核的FPGA非线性校正方案
你升级了吗？iOS 12更新率已超75%：比iOS 11提前三周
氩弧焊的工作原理_氩弧焊的优点和缺点
下半年三家顶级旗舰之争！三星Note8 VS iPhone8 VS 华为Mate10,谁才是龙头老大？
PCB设计同步分析之PCB信号线的意外回音怎么处理
航天宏图以数字乡村架构体系探索践行数字中国建设
联电、世界先进公布Q3财报，均创季度新高
为什么电池内部电流会发生流动呢？
UPS电源厂家哪家好?
哪家更秀？沃尔沃XC90混动 VS 宝马X5混动
BTL功率放大器的电路结构及工作原理
携手众多一线标杆品牌终端靓机芯海科技亮相TWS市场趋势高峰论坛
农用车行业的主要新兴技术和趋势
将广大消费者引入5G时代，要“巧拉”别“强推”