背景
数据中心采用fpga做加速器已经成为主流,像ms的catapult,amazon基于xilinx fpga的aws f1,intel的altera,baidu公司等。数据中心具有大规模并行数据处理,高数据吞吐量,低延时,能效高等特点。但是存在两个问题,第一个是软件的问题,软件移植和保证一定加速的工作负荷;第二个是硬件的问题,配备众核处理器,25-100g的网络接口卡,一些dram/hbm通道,容易时序收敛等。
现介绍一种grvi phalanx fpga加速器结构。其中,grvi是一种基于fpga的有效的risc-v运算单元,即risc-v rv321软处理器核;phalanx是一种并行fpga加速器框架,由pe集群,sram,加速器,dram,i/o控制器等组成,减少在开发和管理fpga加速器时所需付出的消耗和努力;还需要hoplite noc,它是一种基于fpga优化的定向2d环形片上网络系统,用到的技术还有局部内存共享和全局信息流通等。
图.1 grvi运行单元
先看一下grvi phalanx的1680个核的运算单元,运算单元是基于32位的riscv微处理器架构,在一个多核心的芯片中,去掉了每一个核心中的不必要的资源,目的是减小每一个单元的芯片面积。因此,每一个grvi处理单元都是三级流水的,采用用户模式下的rv321核心,减掉了部分不必要的位和其他模块,具体结构如图.1所示。每个grvi运行单元需要320个lut,而且能够跑在375mhz的频率下,看到博主jan gray所设计的众核处理器芯片(详情见“grvi phalanx: a massively parallel risc-v fpga accelerator framework: a 1680-core, 26 mb sram parallel processor overlay on xilinx ultrascale+ vu9p”),其特点是每一个grvi运行单元都是手动排布的,将单个处理器单元在xilinx fpga的ultrascale+的架构下重复1680次,并将生成的文件下载到板卡xilinx vcu118 eval kit上的virtex ultrascale+vu9p fpga芯片中。
将一大堆的处理器核心一股脑的扔进xilinx 的virtex ultrascale+ vu9p fpga芯片中听起来很有趣,但是如果不给每一个核心都匹配一些内存的话,也不能给这么多核心的处理器核心委以重任。因此,每一个在集群中的grvi处理器单元都会配备8个riscv处理器核心和32到128 kbyte的ram,以及另外的一些加速器。整个加速芯片的功耗为31-40w,单个核心的功耗为24mw,最大的吞吐量是0.4tips,内存带宽能够达到2.5tb/s。同一个芯片中的核心集群之间都会相互连接,芯片和外部的i/o端口的通信是通过hoplite路由连接到一个noc(片上网络)来实现的,noc节点之间的数据通信速度可达100gbps,hoplite路由是一个经过fpga优化的定向路由,是专门为2d环形网络所设计的,如图2所示。
图.2 一个400mhz的4*6*256 hoplite noc,100 gb/s links
grvi phalanx集群单元如图3所示,软件部分需要有多线程的c++的编译器,信息传递的执行时间在risc-v的rv321ma gcc编译器中分层排布,为的是在将来的计划中支持像opencl,p4和其他的一些编程工具。
图.3 grvi phalanx集群
还有其他的案例,拥有80个核心的grvi phalanx被实例化到可编程的zynq z-7020 soc中,此案例是在digilent pynq-z1开发板中作为教学所用的一种。
更令人惊喜的是,硬件开发云端的出现,让硬件设计人员不用买昂贵的开发板也可以进行开发工作,只需要动动自己触手可及的鼠标和键盘,通过亚马逊的平台:amazon aws ec2 f1.2xl and f1.16xl instances,找到相关的verilog芯片开发代码就可以进行自己的创作了。
总结
数据中心的加速器要从软件和硬件上同时进行,软件是要有加速算法,需要考虑算法的可移植性和稳定性;硬件方面可以使用文中分析的多核处理器的解决方案,当然要考虑软件移植性、编译工具的易用性、硬件本身的设计困难和硬件的性能、功耗、易维护性等方面。xilinx的fpga在数据中心的并行运算中扮演着一个重要的角色。
线材测径仪常见故障的排除方法
鳍式场效应晶体管之父
电瓶修复-过充电修复的原理
图像相似度分析——相似度算法
MPS 公司在线技术支持平台MPSNOW
数据中心加速器就看GRVI Phalanx FPGA加速器
上海首颁载人测试牌照,自动驾驶企业还面临着多重考验
深度学习如何挑选GPU?
关于工业涂料—金属涂层的介绍和使用指南
科学家正研究用冰制造机器人
安全维护电烤箱 要做到以下四点
敏源传感完成A轮融资 聚焦传感芯片及模组开发
英特尔已经宣布在美国投资200亿美元用于芯片生产
单波长激光泵浦的石墨烯-硅基异质波导集成克尔光频梳的理论研究
常见的分布式存储系统有哪些类型
逻辑与运算——AND电路
三星三季度预计下滑80%,2009年以来最低
华为官宣新服务,要彻底向安卓说再见
半导体行业资本逐鹿 芯片龙头英特尔锐势稍减
InAs/GaSb Ⅱ类超晶格红外探测器背减薄技术工作研究