Fujitsu A64FX处理器架构研究

a64fx处理器结构框图如图1所示,分成4个处理核心存储组 cmg(cpu memorygroup),每个 cmg 包含13个同构核心、l2cache和存储控制器,其中12个核心为计算核心,1个为辅助核心,用于运行操作系统和i/o 操作,全片共52个核心。每个 cmg 集成8gb 容量的 hbm2存储器,全片总容量为32gb,总带宽为 1024gb/s。
片上还集成了 pcie3.016x接口和富士通特有的tofud互连网络接口与路由器,这些外接口与4个cmg 通过片上网络 noc(networkonchip)实现互连和通信。 a64fx 处理器采用台积电7nm 工艺和 cowos封装实现,集成了87.86亿晶体管,最高运行频率为2.2ghz,峰值性能为3.3792tflops,功耗为200w.
fujitsua64fx 处理器采用 64 位 armv8.2a 指令集,同时支持以富士通为主导、与 arm联合开发的可伸缩向量扩展sve(scalable vector extension)指令集,sve支持3种128/256/512单指令多数据流 simd执行宽度的自动向量化处理。
fujitsua64fx运算核心架构如图5所示,包含2 条 512位宽的向量 simd 流水线,共享 64kb 指令 l1i cache和64kb数据 l1dcache,每条向量流水线集成8/16/32个双/单/半精度浮点乘加部件,并支持8/16/32/64 个 64/32/16/8 位整数乘加操作。为加速ai运算,fujitsua64fx 处理器还支持16位和8位整数的点积运算。
fujitsua64fx每拍可以发射 2 条向量浮点乘加指令,并行在2条 simd 流水线上执行,因此单个核心每拍执行双精度浮点运算数32个,最高工作频率为 2.2 ghz,单核心峰值性能为 70.4gflops,全片集成48个计算核心,单处理器双精度浮点峰值性能为3.3792tflops。
综上所述,fujitsua64fx 采用超标量多发射和simd 并行方式提升性能,同时 sve(scalable vector extension)指令支持 128/256/512 位simd自动向量化处理,扩展应用适用性;支持半精度和16/8位整数运算,并支持低精度点积运算,以加速 ai处理。

脱离摩尔定律发展规律，SiP将成为超越摩尔定律的杀手锏
京东联手魅族发布平板JDtab，两年前的配置也敢卖1499？
锂离子蓄电池的基本结构和优点
KUKA机器人高级编程之DEFDAT...ENDDAT
首款基于RISC-V芯片的工业防火墙完成实测！
Fujitsu A64FX处理器架构研究
云计算为未来的发展趋势是怎样的
科技对话少年说用芯点亮科技梦
分享海量大数据背后的处理技术的原理
束状配线光缆GJFJV是什么
iphone8什么时候上市？ihone8新增配色：颜值美出新天际！这才是你想要的iphone8
小米6最新消息：性能怪兽小米6明天发布，恐怕要被米粉们被骂翻天了
永宏PLC在生产目标管理板上的控制改造
ST和SCL及STL等PLC高级编程语言的简单介绍
RIM修补了黑莓企业服务器的另一个缺陷
三星电子第一季度营收同比增长2.7% 芯片业务抵消消费电子业务损失
激光焊接机在焊接镍合金的工艺优点
华为完成业界首个5G网下Cloud VR业务验证可实时云端渲染
小型气象站厂家哪家质量好?
AI科技的 “后勤保障”——PDN阻抗测试