深度好文,详解PowerVR Furian GPU架构的改变(二)

昨日,《深度好文,详解powervr furian gpu架构的改变(一)》一文展示了furian中spu的设计点其依赖usc的数量。相比rogue,furian的可扩展性使我们可以设计一个更广泛的目标性能点。接下来,本文将讨论usc、tpu 和pbe每块的性能。
usc
我们已经重新设计了furian的usc。rogue名义上是16位宽标量的simd机器,在2个周期内运行32位宽任务。furian是 32位宽标量的simd机器,在单个周期内运行整个任务。我们还改变了furian usc每时钟及每道所执行的内容。对于f32,rogue可以每时钟每道并行执行一对fma指令。furian将并行fma设置换成单个fma,且并行相乘,故而与rogue相同的usc,每时钟的运算量增加了50%。
自发布第一代rogue,我们在gpu设计中一直保有相同的两倍速率的f16性能。近几年,f16的性能不断提升,图像相关的应用程序对于gpu供应商用户越来越重要。所以,目前,有相当多的gpu在售并不出奇,且通过微架构机制,f16性能更强。furian也是如此,一直保有我们长期以来的性能。
如您所见,furian延伸了rogue专门管线的概念。这里,我们并非是将所有工作交由内核,并通过计算进入单个的管线,我们进行了简化,同时还尽可能进行分享,以控制独立的路径。决定运行哪种指令时,usc控制逻辑解码了传入的指令包,找出了即将运行的任务及运行数据的来源,并逐周期将它们分派至正确的管线集。在管线层,usc内还有协同问题,所以,顶级逻辑可以找出每时钟数据流及需要运行的数据。这意味着,每usc多管线可以同时工作,且主要目的是保持pip总是处于工作的状态。
因此,从概念上讲,usc是一组内存、一个调度程序和相关的顶级控制逻辑,及一群专门的计算和数据流管线,在有需求时随时随地发挥作用。
tpu and pbe
关于furian tpu不必细讲。不过有一点,它的过滤吞吐量是rogue tpu的2倍。furian纹理硬件的peak int8双线性采样率是每时钟8个。spu中的usc之间是共享tpu的。usc需要数据时向tpu发出请求,并从那时起,tpu逻辑开始处理这些请求。tpu可以在每个usc之间自由地重新排序,但显然,数据返回至usc时则是按照usc提出需求时的顺序。
没错:由于tpu性能进行了提升,pbe的输出率也提升至rogue pbe的两倍。每个spu有2个pbe,每个spu能发出每时钟8个像素的峰值(256bit)至内存结构中。有一组256-bit的ace接口将每个furian与外部世界相连,当然,这也需要今天的高端片上系统的设计。因此,相比您手中的设备或集成至汽车等事物,其gpu系统的峰值带宽要高一些,因此保持这样一个高性能的gpu很有必要。
内存和存储层次
谈到内存,usc内存完全重新进行了设计,以便可以读取和写入,使之更有效率。在usc内有一些独立的寄存器池,这里寄存器有不同的目的,但furian专门设计了几个额外的寄存器。它没有在usc内建立完全统一的寄存器文件以用于所有的数据访问,保持专门的寄存器池可以更容易避免瓶颈,优化功率。
我们对furian的总体内存层次结构也完全重新进行了设计,涉及到内存和ace端口之间,从寄存器存储一直到最后的系统级缓存全部覆盖。这样做是因为furian扩展的新方式,但也是为了让其更有效,以避免瓶颈,让设计更加自由。关于这一点还有许多细节尚未详尽,但tpu以及如何优化整体设计是这项工作的焦点。
这一方面的工作对于未来基于furian来实现光线追踪的设计大有优势。我们可以在furian开发过程中与架构团队谈论,甚至对于写入的内容进行最终的研究,不过清楚的是,在未来,将会有基于furian的光线追踪微架构问世,敬请期待!
总结
想了解furian主体微架构的亮点之处,有许多新的信息需要获悉。在举例说明之前,让我稍作总结,以便各位理清思路,了解每时钟性能改善之处及设计如何扩展。furian和 rogue在微架构方面的改变远不是一篇文章可以讲得清,我的寥寥数语也无法详述架构师和设计师所付出的努力。若要详细阐述,需要花一段时间来准备。
回到furian:furian采用新方式进行了扩展,即使用新的spu作为构建块,以将特定的gpu资源集中在一起,并在概念上和物理上都在硅中进行分布。我们可以改变每spu处理的资源,使我们能够根据客户的需求来保持内核的平衡,同时使整个系统的设计布局对于物理团队而言更加简单。关于前端、纹理和后端逻辑每spu的性能,furian也可以在usc计算之外将整个gpu性能扩展至新的层次。
usc每时钟功率至少增加了50%,在使用主要的运算管线和其他专门的管线时更有效率。并且,它的内部内存组织完全重新设计,与furian新的存储层次形成一个整体。架构设计时已经优化了效率,且新spu结构可以扩展至更高的gpu配置中。
column1
column2
column3
column1
column2
column3
per cycle performance
furian (8xt)
rogue (7xt)
scaling
furian (8xt)
rogue (7xt)
usc simd width
32-wide
16-wide
uscs
scalable
2
usc execution width
32-wide
32-wide
pbes
2
2
usc f16 ops
192
128
tpus
1
1
usc f32 ops
96
64
fes
1 per 2 uscs
1 per 4 uscs
usc sfu ops
16
16
pbe pixels
4
2
tpu texels
8
4
fe triangles
0.5
0.5
所以,furian是全新的微架构,可以处理最通用的运算内核的任务。它被一流的gpu特定的资源环绕,仍旧体现了powervr专有tbdr设计的理念,是对rogue的一大突破。对我们来说,不管是usc或是tpu完全改变,或gpu在块级集成的方式与先前的完全不同,这都没有关系。如果tbdr执行是设计的关键,那便是powervr gpu。
很开心告诉大家,具体的产品待准备就绪,即将发布。
想了解powervr最新的资讯,请关注我们的twitter@imaginationtech @powervrinsider及linkedin、facebook和google +。

制定数据隐私策略的思路和方案
java和javaweb和javascript的区别
POE电源神秘的供电方式
电路基础知识点总结
模拟芯片前景乐观 预测2022年规模高达748亿美元
深度好文,详解PowerVR Furian GPU架构的改变(二)
NVIDIA招聘 | 自动驾驶团队的宝藏管理职位了解一下
通过钻孔热能储存太阳能,打造新型光伏储能项目
结构函数的由来及推导过程
如何提高固网家宽的品质
思岚科技智能移动机器人具备完善的定位导航与路径规划能力
EMI/RFI屏蔽的基本原理
简述熔丝的结构、特点以及检查方法
PLC远程上下载物联网网关的概念和重要性
对于特定应用来说可以接受的信号强度是多少
雷士照明总裁吴长江荣膺‘安永企业家奖’
如何为Arduino板提供环境能源
众安保险与华为达成合作,加入鸿蒙生态圈
Autodesk Vault在变压器三维设计中的应用
Congruity360利用AI提高风险评估过程的速度和精度