FPGA的Block RAM级联架构给AI/ML带来超高数据流通量

随着数据中心、人工智能、自动驾驶、5g、计算存储和先进测试等应用的数据量和数据流量不断增大,不仅需要引入高性能、高密度fpga来发挥其并行计算和可编程硬件加速功能,而且还对大量数据在fpga芯片内外流动提出了更高的要求。于是,在fpga芯片中集成包括片上二维网络(2d noc)和各种最新高速接口的新品类fpga芯片应运而生,成为fpga产业和相关应用的新热点。
拉开这场fpga芯片创新大幕的是全球最大的独立fpga技术和产品提供商achronix半导体公司,其采用7nm工艺打造的achronix speedster7t fpga不仅拥有诸多高性能外围hard ip,而且是全球首次在fpga的逻辑阵列上集成了2d noc,一经推出就在市场得到了积极的响应,并引来竞争对手的模仿和跟随。
speedster7t这款专门针对人工智能/机器学习(ai / ml)和高带宽应用进行优化的高性能、高密度fpga,包括了革命性的二维片上网络(2d noc)、新型机器学习处理器(mlp)、400g以太网和pcie gen5端口,以及高带宽gddr6和ddr4/5存储控制器。speedster7t fpga架构如图1所示。
图1 speedster7t fpga结构图
achronix speedster7t fpga除了在外围hard ip上都采用目前业内领先的大带宽高速率ip,在内部的可编程逻辑的架构中也做了大量的优化去进一步提高内部可编程逻辑的性能,从而适配外围ip超高带宽需求。本文首先谈谈speedster7t fpga的片上sram,也就是block ram针对传统的结构所做出的一些优化。
speedster7t fpga中可编程逻辑的架构
speedster7t fpga中内部的可编程资源是按列排布,包括lut、ff、alu、mux、mlp、block ram、logic ram。如图2所示。
图2 speedster7t fpga可编程逻辑结构
其中mlp、block ram、logic ram是集成在一起,他们之间的连接用的是专有的走线,不占用可编程逻辑走线资源,这样做的目的主要是为了提高性能,同时也可以节省可编程逻辑走线资源,这个架构对于ai,还有需要用到mlp的一些复杂算法的性能优化是非常明显的,在我们的mlp系列文章中会详细讲到,这里我们只重点说一下block ram。
speedster7t fpga的block ram特点
speedster7t fpga内部的block ram是一个容量为72k bit的简单双端口ram,有一个读端口,一个写端口。两个端口的时钟完全独立,并且可以完全独立的配置读写位宽。它可以灵活的配置成简单双端口ram或者rom。
block ram的主要特性如表1所示。
表1 block ram的关键特性
block ram框图如图3所示。
图3 block ram内部结构
speedster7t fpga的block ram级联结构
speedster7t fpga的block ram最大的特点是增加了block ram间的级联走线,级联走线是bram间专有的连线,不占用可编程逻辑的走线资源,可以极大的提升多个block ram级联的性能。图4显示了block ram间级联走线的架构。
图4 block ram级联结构
由图4可以看出,读写地址线和数据线都有专有的级联线连接。这样的架构在一些场景中都会有应用,比如:需要从外部端口接收数据或者从gddr6读数据去初始化大量block ram的场景,ai的神经网络就是一个典型的应用,在每一层的卷积算法中,系统都会从gddr6读出图像数据和权重数据放入每个引擎的block ram中,引擎计算完毕以后再存入到gddr6中供下一次运算使用。
有了这样的级联架构,我们在写入数据去初始化大量block ram的时候不需要外部数据有很大的扇出,直接通过同一列block ram的级联线就可以轻松完成,具体实现可以参考achronix mlp_conv2d参考设计。另外一个例子就是在需要多个block ram去构成更大容量的ram的时候,如果利用级联线可以大大提升系统的性能。我们针对这个专门做了一个工程比较一下,生成一个位宽64bit,深度16384的一个简单双端口ram,需要用到16个block ram。我们分别用专有级联线和内部可编程逻辑去拼深度两种方法来对比。可以看到用专有的级联线资源更省,而且性能有了很大的提高。
使用专有的级联线资源占用和性能:
使用可编程逻辑资源占用和性能:
后面我们会继续深入了解speedster7t fpga可编程逻辑的各种特性,并且会用一些例子来说明如何更高效的利用这些特性,以将speedster7t这款业界首创的高数据带宽fpga芯片与更多的创新智能化应用结合起来。
此外,achronix也提供speedcore嵌入式fpga硅知识产权(ip)产品,用来帮助用户在应用规模进一步扩大后,去开发带有efpga逻辑阵列的asic或者soc产品,它们由achronix的ace fpga开发工具提供支持,从而可以重用fpga开发成果,这是achronix在率先引入2d noc和mlp之外,另一个层面上的创新。
参考文献:
1.achronix website www.achronix.com
2.achronix speedster7t ip component ug090

阿里达摩院到底取得了哪些技术突破?
LED户外屏购买时需要注意什么
云塔科技推出5G NR Sub-6GHz滤波器芯片,实属国内首款
PROFIBUS总线是T×S系统数据通信和核电厂系统改造中的应用
AI将物流行业向智能物流转型升级
FPGA的Block RAM级联架构给AI/ML带来超高数据流通量
ADI公司推出ADMP441首款INTER-IC SOUND数字MEMS麦克风
罗克韦尔CompactLogix 控制系统PLC如何借助工业网关实现远程编程维护?
iphone8什么时候上市?iphone8最新消息:iphone8五大传闻汇总,哪一个更契合实际?
关于欧姆表的一种简单技术
中兴BladeV8评测 硬件确实显得有些不足竞争力不大
PCB走线电阻和电抗会降低产品性能
你的手机可能支持USB PD快充
荣耀V30 PRO搭载全场景快充 全球首款旗舰5G Soc芯片
山寨手机需求超乎预期
磁性元件在光伏中的表现 谈谈其功率转换及应用_下
鸿蒙系统支撑“1+8+N”产品结构 鸿蒙OS会逐步应用各个场景
HTC One S现身FCC
三星投资6个独立VR项目,都通过三星提供的Oculus商店获取
上达电子将投资60亿元建遂宁产业基地