『 RJIBI 』-基于FPGA的YOLO-V3物体识别计算套件

1. 引言
基于rjibi公司硬件开发套件的yolo-v3物体识别检测算法的相应软、硬件实现。
本文主要阐述和规定了两大部分内容：（1）机器学习推理框架针对在mpsoc fpga平台上的arm核心的软件部署方法（2）针对mpsoc fpga平台的yolov-v3算法和相关接口的硬件实现和部署流程。
主要指标
（1）fpga硬件计算平台为 rjibi face系列板卡套件
（2）深度学习训练框架：采用yolo 原作者使用的 darknet 训练框架
（3）深度学习推理框架：tensorflow lite、caffe2
（4）支持目标检测网络模型：yolo-v3，yolo-v3-tiny
（5）目标检测网络模型推理精度（map）在coco数据集上：
yolo-v3 ≥ 55%
yolo-v3-tiny ≥ 30%
（6）目标检测网络参数存储位宽要求：
yolo-v3 采用ieee 754 标准的32-bit浮点数
yolo-v3-tiny 采用16-bit定点数
（7）关键性能指标在416x416图片上的参数：
目标检测速率：
yolo-v3 ≥ 10帧/秒
yolo-v3-tiny ≥ 60 帧/秒
系统设计功耗：
fpga + arm 异构处理器 ≤ 20w
系统峰值32-bit浮点计算能力：
fpga + arm 异构处理器 ≥ 100gflops
（8）模块化、可重用、可配置的深度学习fpga加速ip核：
卷积层、batch normalization 层、池化层
硬件资源评估：
（1） arm cpu：mpsoc异构芯片整合了arm比较先进的64位双核cortex-a53核心，其运行频率最高可达1.3ghz。这款cpu内核对于边缘计算的嵌入式设备来说已经是非常强大的通用计算核心，所以在这款cpu上搭载常用的64位linux 操作系统（ubuntu 16.04/18.04 lts）。
（2） arm cpu 对应内存：板卡中为 arm核配备的内存只有512mb，这个内存容量对于动辄内存占用gb级别的大型深度学习推理框架（tensorflow、pytorch）来说是明显不够的。因此拟采用针对嵌入式平台的深度学习推理框架（tensorflow lite、caffe2）对yolo-v3物体识别网络进行支持。
（3） fpga 硬件资源：mpsoc异构芯片的fpga核心部分拥有600k以上系统逻辑单元（system logic cell）、32.1mb片上存储资源、2520个数字信号处理单元（dsp slice）和328个io接口。其fpga逻辑部分最高频率可到500mhz。
（4） fpga 核心对应内存：face板卡为fpga核心配备了可以独立于cpu核心进行dma操作的 4gb ddr4 64-bit sodimm 内存，经过乙方的深度、详尽的测试，其峰值读写性能可达4gb/s。经过乙方的详细估算，其dma访存的读写性能是可以满足甲方所提的yolo-v3目标检测网络的关键性能指标。因此，乙方拟将参数模型和推理所用的数据集预先存储在fpga核心对应的ddr4内存上，随后再进行推理操作，并测量yolo-v3网络的具体性能指标。
软件概述
（1） yolo-v3 和 yolo-v3-tiny 网络的深度学习训练框架，采用yolo原作者使用的darknet框架，因为这个框架是开源框架中唯一能完美复现yolo-v3和yolo-v3-tiny网络训练结果的框架。
针对fpga的深度学习网络加速器性能设计的关键是在具体的计算并行度和访存并行度之间进行一个最有的折中，因为任何计算平台都有其理论的计算和访存性能峰值。为此，针对计算平台的roofline 性能寻优的具体算法和程序。该算法或程序的输入参数为：（1）需要加速的yolo网络具体参数（格式可以常用的.cfg深度神经网络配置文件格式）（2）fpga平台的fpga核心硬件资源和对应片外访存的峰值性能指标。该算法对应的输出为，在不同访存/计算并行度条件下，位于最优的帕累托曲线上的硬件设计。其输入结果如下图所示。
硬件方案概述
硬件平台的具体形况分析，本软件方案简要概述如下：
（1） arm-fpga片上amba总线接口如下图红色方框所示。在可编程逻辑（programmable logic）也就是fpga和arm核心之间是通过片上的amba高速总线进行信息交互的。因此为了使用cpu+fpga的异构架构对yolo目标检测网络进行硬件加速，乙方需要为arm核心上的软件程序提供调用fpga硬件深度学习ip硬件核心的软件调用方法和相应的硬件支持接口和协议。为此开发针对卷积、batch normalization和池化层的硬件调用接口。
（2） fpga核心dma访存硬件接口。根据硬件开发平台和相应yolo-v3网络算法的分析，将yolo网络参数和推理所需的图片存储在fpga核心对用的ddr4内存中。根据roofline 模型，dma访存带宽的大小直接决定了相应加速器的最终系统性能指标。因此针对yolo-v3模型参数的读取、不同网络层中间结果缓存和识别结果的写入提供了灵活、模块化、和高度优化的dma访存硬件模块设计。
（3） fpga硬件算子设计。yolo目标检测网络主要由卷积层、batch normalization层和池化层这三种算子组成。接口均采用axi总线的标准格式进行封装，并且采用模块化、可复用、易懂的代码风格进行编写。
（4） yolo 硬件加速器算子间流水线、缓存优化设计。在将yolo网络的某一层映射到fpga硬件的过程中，有非常多的优化参数需要确定，如每一个数据点的处理顺序、存储位置和并行处理单元的数量和实现算法，这些参数并不会改变神经网络原有的结构和运算的结果，但却是决定流水线性能、能耗和资源消耗的关键指标。为解决这个问题，需基于线性缓冲区的单层网络调度方案，降低流水线延迟和提高数据在fpga片上的重用率。从性能和能效性考虑，将yolo神经网络的不同层连接起来并实现层与层之间的流水线是最好的选择，但是在具体实现过程中有很多困难。首先，在神经网络的实际运行过程中，上一层的输出数据和下一层的输入数据的格式、速率和排布方式等并不相同，因此如何合理的实现不同层之间的数据互联是是一个亟待解决的问题。其次，fpga的片上资源是有限的，如何将尽可能多的甚至整个神经网络层都映射到fpga上并实现高效的流水线非常困难的，这
就需要一个跨层的流水线整体调度方案。
lw

AISpeech Inside军团之“征路者”又发新品，内置思必驰AIOS3.0版本
内蒙风电场35KV电缆分接箱一进二出铜排连接厂家
广和通现身世界5G大会，做产业跨界融合使能器
显卡的基本结构和主要器件详细介绍
安达发APS|生产计划部门如何提升产量？
『 RJIBI 』-基于FPGA的YOLO-V3物体识别计算套件
微波的详细分析以及其工作原理
世健公司提供ADI公司医疗超声整体解决方案
对.lds连接脚本文件的分析
程序员必须学会沟通
如何本地运行和测试Github Actions？
第六代Wi-Fi技术或将比5G网络还厉害
新东风标致408体验是如何应试新“四大件”标准的呢？
疫情之后，人工智能将大有可为
汽车电子车窗防夹技术的主要类型及控制系统架构
测力传感器的原料有哪些
无线传感器节点功耗限制子系统的设计
平安夜来了，看看GEEK怎么过圣诞！
变电所运维云：变电所配电房运维小能手
HDH-100A数字式回路电阻测试仪使用方法说明