xilinx Vivado HLS工作方式的优势与案例

设计人员使用赛灵思级高层次综合工具，能以类似软件的方式用高级编程结构描述包处理系统，而使用rtl则难以实现。
不同层面的协议处理常见于各种新型通信系统，因为任何信息交流都需要使用某种通信协议。通信协议一般包含数据包。数据包由发送方创建，由接收方重新组合，这些操作都要遵循协议规范。这样协议处理无处不在，需要fpga设计人员特别关注。因此高效地实现协议处理功能对fpga有非常重要的意义。
设计人员在视频处理和信号处理领域运用高层次综合（hls）功能已取得巨大成功。使用hls，用户可使用高级编程语言来表达硬件功能。为测试这种技术用于包处理的效果，我们用赛灵思vivado hls工具构建了一个完整的原型系统，其结果确实令人振奋。vivado hls不仅让我们将开发时间缩减了一半，而且还减少了资源使用并降低了时延。我们的原型系统是一个简单的arp/icmp服务器，能对ping和地址解析协议（arp）请求做出响应并解析ip地址查询。
下面我们深入了解一下vivado hls是如何帮助设计人员解决在协议处理过程中遇到的主要问题。为了解这项技术的优势，应首先详细了解vivado hls，掌握其工作方式。
提高抽象层次 vivado hls能提高系统设计的抽象层次，为设计人员带来切实的帮助。vivado hls通过下面两种方法提高抽象层次：
 使用c/c++作为编程语言，充分利用该语言中提供的高级结构；
 提供更多数据原语，便于设计人员使用基础硬件构建块（位向量、队列等）。
与使用rtl相比，这两大特性有助于设计人员使用vivado hls更轻松地解决常见的协议系统设计难题。最终简化系统汇编，简化fifo和存储器访问，实现控制流程的抽象。hls的另一大优势是便于架构研究和仿真。
vivado hls把c++函数视为模块，函数定义等效于模块的rtl描述，函数调用等效于模块实例化。这种方法能减少需要用户编写的代码量，进而显著简化用于系统描述的结构代码，最终加速系统汇编进程。
在vivado hls中，存储器或fifo可通过两种方法访问。一种是通过合适的对象（比如对流对象的读写）。另一种是直接访问综合工具随后将实现为block ram或分布式ram的标准c阵列。综合工具会根据需要处理额外的信令、同步或寻址问题。
从控制流的角度，vivado hls从简单的fifo接口到完整的axi4-stream均可提供整套流控制感知接口。使用这些接口，设计人员可直接访问数据，无需检查背压或数据可用性。vivado hls会适当地调度执行，应对一切紧急情况，同时确保正确完成执行。
设计人员还会感激vivado hls提供的另一项功能，即简便的架构研究功能。用户只需在代码中插入程序指令（如使用gui或批处理模式时的tcl命令），就可以把设计所需特性传递给综合工具。这样用户可以在不修改设计代码本身的情况下研究大量备选架构方案。研究的范围可以是模块流水线化等根本性问题，也可以是fifo队列深度等较常见的问题。
最后，c和rtl仿真是vivado hls另一个大放异彩的地方。设计一般采用两步流程验证：第一步是c语言仿真。这个步骤中c/c++的编译和执行与常见的c/c++程序相同；第二步是c/rtl协仿真。在这步骤中，vivado hls会根据c/c++测试平台自动生成rtl测试平台，然后设置并执行rtl仿真，检查实现方案吧的正确性。
如能充分发挥这些优势，这将对于用户的系统设计大有裨益。这不仅体现在开发时间和生产力上，还由于vivado hls代码更加紧凑的特点，体现在代码可维护性和可读性上。此外通过高层次综合，用户仍能有效控制架构及其特性。正确理解和使用vivado hls程序对实现这一控制起着根本作用。
高层次综合在赛灵思提供的包处理解决方案的层级结构中起着承上启下、承前启后的作用。而vivado sdnet（见《赛灵思杂志》第87期的封面专题报道）和rtl则对其起到补充作用。vivado sdnet使用特定领域语言，提供一种大为简便但相当受限的协议处理系统表达方法。rtl则可以用于vivado hls无法表达的大量系统的实现工作（例如使用dcm或差分信号并需要详细时钟管理的各类系统）。虽然有种种局限，vivado hls仍然是在保证结果质量或设计人员灵活性的前提下设计大部分协议处理解决方案的有效途径。
设置简单系统开始新设计时需要完成的最基本工作首先是确定设计的结构，然后将其实现在vivado hls中。vivado hls中的基本系统构建块是c/c++函数。构建一个由模块和子模块组成的系统意味着需要用一个顶层函数来调用底层函数。图1所示的是一个极为简单的三级流水线，我们以此为例来介绍vivado hls中系统构建的基本思路。一般采用流水线化设计执行协议处理，由每一级负责解决处理的特定部分。
构建一个由模块和子模块组成的系统意味着需要用一个顶层函数来调用底层函数。
例1：在vivado hls中创建简单系统
1 void toplevelmodule(stream&indata,
stream&outdata) {
2 #pragma hls dataflow interval=1
3
4 #pragma interface axis port=indata
5 #pragma interface axis port=outdata
6
7 static stream> modone2modtwo;
8 static stream> modtwo2modthree;
9
10 moduleone(indata, modone2modtwo);
11 moduletwo(modone2modtwo, modtwo2modthree);
12 modulethree(modtwo2modthree, outdata);
13 }
例1中的代码用于创建顶层模块函数，供调用所有其它子函数使用。顶层模块函数使用两个参数，均属于“流”（stream）类（vivado hls库中提供的模块类之一）。流是一种hls建模架构，代表准备以流方式交换的数据通过的接口。流可以实现为fifo队列或内存，也可以是一种能够配合任何c++架构使用的模板类。在本例中，我们定义了一种称为axiword的数据结构（struct），如例2所示。
例2：定义流接口使用的c++ 结构
structaxiword {
ap_uint data;
ap_uintstrb;
ap_uint last;
};
该struct用于定义axi4-stream接口的部分字段。vivado hls能自动支持此类接口，使用编译指令（pragma）语句即可完成设定。编译指令是对高层次综合工具的指令，用于指导工具实现要求的结果。例1中第4行和第5行的编译指令用于告知vivado hls这两个指令（具体是顶层模块的输入和输出端口）将使用axi4-stream接口。axi4-stream i/f包含两个必备信号，分别是有效信号和就绪信号，但它们没有包含在声明的数据结构中。这是由于vivado hls ax4 i/f会在内部处理这些信号，也就是说它们对用户逻辑而言是透明的。如前文所述，在使用axi4-stream i/f时，从用户处抽象流控制完全由vivado hls完成。
当然未必一定使用axi4-stream接口。vivado hls提供有丰富的总线接口。这里选择axi4-stream作为常见标准接口的示例，供用户进行包处理。
实现我们的设计的下一项工作是确保我们的三个模块彼此互联。这项工作也通过流完成，不过这次它们是位于顶层模块的内部。第7行和第8行用于声明实现这一目标的两个流。这两个流使用了另一种vivado hls结构ap_uint。这是一种无符号一维位阵列，随后将按此对其操作。同时这也是又一种模板类，因此必须设定这个阵列的宽度。在本例中使用64位，与顶层模块输入输出i/f的数据成员宽带匹配。还有一点需要详细说明的是这些流全部声明为静态变量。静态变量是指其值不随函数调用变化的一种变量。由于在作为顺序c/c++程序执行时顶层模块（以及全部的子模块）每个时钟周期会被调用一次，所以任何需要保持其值不随时钟周期变化的变量都需要声明为静态变量。
创建流水线设计将要讨论的最后也是最重要的一个是编译指令。第2行中的数据流编译指令指示vivado hls尽量以并行方式安排执行该函数的所有子函数。“internal”参数用于设置该模块的初始化间隔（ii）。初始化间隔（ii）告知vivado hls该模块必须具备的处理新输入数据字的频次，故决定了设计的吞吐量。不过这并不妨碍模块内部的流水线化和拥有>1的时延。当ii=2时，该模块将用两个周期完成数据字的处理，然后再读入新的数据字。以这种方式vivado hls可以简化模块最终的rtl。也就是说，在一个典型的协议处理应用中，设计必须具备每个时钟周期处理一个数据字的能力，故从现在起我们令ii=1。
初始化间隔（ii）告知vivado hls该模块必须具备的处理新输入数据字的频次，故决定了设计的吞吐量。
最后要解决的问题是函数调用本身。在vivado hls中，这个过程对应的是模块的实例化。传递给每个模块的参数实质上定义了模块的通信端口。在本例中，通过将输入连接到第一个模块，然后用 modone2modtwo流把第一个模块连接到第二个模块，依次类推，将三个模块链接起来。
设置简单系统协议处理一般情况下属于状态事务。必须先顺序读取在多个时钟周期内进入总线的数据包字，然后根据数据包的某些字段决定进一步操作。通常应对这种处理的方法是使用状态机，对数据包进行迭代运算，完成必要的处理。例3是一种简单的状态机，用于根据上一级的输入丢弃或转发数据包。该函数接收三个参数：一个是通过“indata”流接收到的输入分组数据；一个是通过“validbuffer”流显示数据包是否有效的1位旗标；第三个是称为“outdata”的输出分组数据流。注意vivado hls函数中的参数是按引用传递的。这在使用较为复杂的vivado hls流的时候是必要的。ap_uint等较为简单的数据类型则可按值传递。
第2行中的流水线编译指令指示vivado hls将该函数流水线化，让初始化间隔为1（ii=1），即每个时钟周期处理一个新的输入数据字。vivado hls负责核验设计，并确定需要在设计中引入多少个流水线级来满足调度限制要求。
例3：使用vivado hls的有限状态机
1 void dropper(stream&indata,
stream>&validbuffer,
stream&outdata) {
2 #pragma hls pipeline ii=1 enable_flush
3
4 static enumdstate {d_idle = 0, d_stream, d_
drop} dropstate;
5 axiwordcurrword = {0, 0, 0, 0};
6
7 switch(dropstate) {
8 case d_idle:
9 if (!validbuffer.empty() && !indata.empty()) {
10 ap_uint valid = validbuffer.read();
11 indata.read(currword);
12 if (valid) {
13 outdata.write(currword);
14 dropstate = d_stream;
15 }
16 }
17 else
18 dropstate = d_drop;
19 break;
20 case d_stream:
21 if (!indata.empty()) {
22 indata.read(currword);
23 outdata.write(currword);
24 if (currword.last)
25 dropstate = d_idle;
26 }
27 break;
28 case d_drop:
29 if (!indata.empty()) {
30 indata.read(currword);
31 if (currword.last)
32 dropstate = d_idle;
33 }
34 break;
35 }
36 }
第4行用于声明一个静态枚举变量，用于表达该fsm中的状态。使用枚举与否可以选择，不过能让代码更容易阅读，因为可以给状态适当地命名。不过使用任何整数或ap_unit变量也能得到与之类似的结果。第5行用于声明一个“axiword”类型的变量，用于存储准备从输入中读取的分组数据。
第7行中的开关语句用于表达实际的状态机。建议使用开关，但非强制要求。使用if-else决策树也能执行同样的功能。开关语句能够让vivado hls工具更高效地枚举所有状态，并优化得到的状态机rtl代码。
执行从d_idle状态开始，此时fsm从第10行和第11行的两个输入流读取。这两行分别代表两种流对象读取方法。这两种方法均从设定的流读取，然后将结果存储到给定变量中。这种方法采取阻塞式读取，意味着如果该方法调用无法顺序执行，就会暂停执行该函数调用中的其余代码。在试图读取空流的时候会发生这种情况。
流分割和合并在协议处理中，根据协议栈特定字段转发数据包给不同模块，然后在发送前将不同的流重新组合，是一项关键功能。vivado hls允许使用高级架构来推动这一转发过程，具体如例4中所示的流合并。
例4：简单的流合并情况
1 void merge(streamindata[num_merge_
streams], stream&outdata) {
2 #pragma hls inline off
3 #pragma hls pipeline ii=1 enable_flush
4
5 static enummstate{m_idle = 0, m_stream}
mergestate;
6 static ap_uint
rrctr = 0;
7 static ap_uint
streamsource = 0;
8 axiwordinputword = {0, 0, 0, 0};
9
10 switch(mergestate) {
11 case m_idle:
12 boolstreamempty[num_merge_streams];
13 #pragma hls array_partition variable=stream-
empty complete
14 for (uint8_t i=0;i
searchaddress);
9 };
这个类也包括四种在这个表上运算方法（其中一个是构造器）。其中的一个，即比较法，用于实现真正的查找功能。本例通过提供ip地址来返回相应的mac地址。处理的方法是使用“for”循环查找表中的每一条记录，搜索有相同ip地址的有效记录。然后完整地返回这条记录。如果没有找到，就返回无效记录。为让设计实现ii=1的目标，必须完全展开这个循环。
例8：用于cam类的比较法
1 arptableentry cam::compare(ap_uintsearchaddress)
{
2 for (uint8_t i=0;ifilterentries[i].valid == 1 &&
searchaddress == this->filterentries[i].ipaddress)
4 return this->filterentries[i];
5 }
6 arptableentry temp = {0, 0, 0};
7 return temp;
8 }
上述经验和示例明确说明，用户可以使用vivado hls充分发挥高级编程结构的作用，用类似软件的方法描述包处理系统。采用rtl是难以实现的。
10gbps速率下的协议处理与传统rtl相比，vivado hls可使用c/c++在fpga上迅速方便地实现协议处理设计，充分发挥高级语言带来的效率提升优势。另外还具有下列优点：使用c函数轻松完成系统构建；数据通过流交换，提供类似fifo的标准化接口；灵活的流控制和hls编译指令，便于使用该工具实现需要的架构。借助这些功能，用户无需重写源代码就能够迅速判研多种不同设计方案的利弊。
出于解释这类设计的基本概念的目的，上文讨论了一种能够应答ping和arp请求，解析ip地址查询的简单arp服务器。结果证明用vivado hls设计的模块能够以10gbp乃至更高的线速完成协议处理。

关于 iMac Pro 的那颗 T2 芯片的简单介绍
什么叫电子设计自动化_电子设计自动化的特点
新基建热潮下，充电桩基础设施行业将迎来乘风破浪时代
一文详解iPhone12系列手机的新功能
AGL600设计的视频开发方案
xilinx Vivado HLS工作方式的优势与案例
3D工厂数字模拟技术带来工业革命的新时代
以端到端5G技术加速智能制造应用升级
如何利用包络追踪功能提高声频放大器的效率
想要玩VR 你的设备必须达到这些硬性标准
Cerner Corp正在标准化其公共云上的机器学习工作负载
家庭充电桩是购买电动汽车的最重要因素之一
嵌入式Linux 中的应用中的GTK+
这些鸡肋的智能硬件，你中了几个？
2023年OLED电视面板出货将达910万片
5G+云网融合将如何赋能垂直行业？
工程师怎样激发自己的创造力
对三种形式的光伏与农业相结合方式进行比较和投资效益分析
11条关于人工智能的断言
西门子医疗的Corindus介入机器人迎来了中国“首秀”