如何通过DLP FPGA实现低延时高性能的深度学习处理器设计呢?

图像识别和分析对于产品创新至关重要,但需要高工作负载,对服务质量要求严格。解决方案如gpu无法满足低延迟和高性能要求。dlp fpga是一种可行的选择,本文将探讨如何实现这种技术。
图像识别和分析在各种产品创新中具有重要作用。然而,这些应用通常涉及高工作负载,对服务质量有严格要求。目前的解决方案,如gpu,无法同时兼顾低延迟和高性能要求。
为了在应用深度学习的同时提供良好的用户体验,可以在fpga上架构一个超低延迟和高性能的dlp(深度学习处理器)。
dlp fpga可以同时支持稀疏卷积和低精度数据计算,同时定义了一个定制的isa(指令集架构),以满足对灵活性和用户体验的要求。使用resnet18(稀疏内核)的延迟测试结果显示,fpga的延迟只有0.174ms。
在本文中,我们将简要讨论如何通过新的dlp fpga实现这样的结果。
1 架构
新开发的dlp有4种模块,根据其功能进行分类:
计算:卷积、批量归一化、激活和其他计算
数据路径:数据存储、移动和重塑
参数:存储权重和其他参数,解码
指令:指令单元和全局控制
dlp中的protocal engine(pe)可以支持:
int4数据类型输入。
int32数据类型输出。
int16量化
这种pe能提供超过90%的效率。此外,dlp的重量加载支持csr解码器和数据预取。
2 训练
需要重新训练来开发一个高精确度的模型。下面有4个主要步骤来获得稀疏权重和低精度数据特征图。
我们用一种有效的方法将resnet18模型训练到稀疏和低精度(1707.09870)。我们方法中的关键部分是离散化。我们专注于压缩和加速深度模型,其网络权重由非常小的比特数表示,被称为极低比特神经网络。然后我们将这个问题建模为一个离散约束的优化问题。
借用乘法交替方向法(admm)的思想,我们将连续参数与网络的离散约束解耦,并将原来的硬问题铸成几个子问题。我们建议使用梯度外算法和迭代量化算法来解决这些子问题,与传统的优化方法相比,这些算法会导致更快的收敛。
在图像识别和物体检测方面的大量实验证明,当涉及到极低比特的神经网络时,所提出的算法比最先进的方法更有效。
3 isa/编译器
如前所述,对于大多数在线服务和使用场景,仅有低延迟是不够的,因为算法模型会经常变化。正如我们所知,fpga的开发周期非常长;通常需要几周或几个月的时间来完成一个定制的设计。为了解决这一挑战,我们设计了工业标准架构(isa)和编译器,以减少模型升级的时间,使之仅为几分钟。
sw-hw共同开发平台由以下项目组成:
编译器:模型图分析和指令生成。
api/驱动:cpu-fpga dma图片重塑,重量压缩。
isa控制器:指令解码、任务调度、多线程流水线管理。
4 硬件卡
dlp是在fpga卡上实现的,它有pcie和ddr4内存。dlp与该fpga卡相结合,可以使在线图片搜索等应用场景更高效用户体验更好。
5 结果
使用resnet18的fpga测试结果表明,我们的设计实现了超低水平的延迟,同时在低于70w的芯片功率下保持了非常高的性能。


5G将成为引领国家数字化转型的通用目的技术
苹果15芯片是A16吗 苹果a15芯片是自己设计的吗
新型轻质雷达吸波材料研究与发展
负反馈对放大电路性能有何影响?
嵌入式工控机的结构有哪些
如何通过DLP FPGA实现低延时高性能的深度学习处理器设计呢?
智能家居“不人性”:简单问题变复杂
电源管理芯片设计公司力芯微发布2022第一季度报告
Cree宣布投资10亿美元 用于扩大SiC(碳化硅)产能
全球首个5G电话打通!Qualcomm和爱立信完成首个公开的、符合3GPP规范的5G新空口毫米波OTA呼叫
串行AD和DA芯片的应用
智能IC产品在体育行业发展前景及发展机遇分析
如何避免比特币和以太坊受到双重支出攻击
频谱分析仪使用的时候内部失真
本田手臂式无线充电,新“噱头”
瑞典5G市场的大门再次对华为关闭了
测试电源好坏一般测试哪些项目?需要用什么测试设备呢?
智慧灯杆与南阳共建“数字化园区”
印度将为特斯拉提供激励措施以降低生产成本?
简要介绍全球MEMS代工厂