机器人平台JetPack 3.1使Jetson的低延迟推断性能翻了一番

nvidia发布了针对jetsontx1和tx2的生产linux软件jetpack 3.1。随着tensorrt 2.1和cudnn 6.0的升级，jetpack 3.1可为实时应用程序（如视觉导航和运动控制）提供高达2倍的深度学习推理性能，这些应用程序可从批量加速1中获益。改进的特性使jetson能够部署更强大的智能，实现一代自动化机器，包括传送机器人，远程呈现和视频分析。为了进一步推动机器人技术的发展，nvidia最近推出的isaac initiative是一个端到端的平台，用于在现场培训和部署高级ai。
图1. liquid robotics公司的再生波和太阳能波浪滑翔机能够与jetson一起自主穿越海洋进行低功耗视觉和人工智能处理。
ai在边缘当nvidia推出jetson tx2时，事实上的边缘计算平台获得了显着的功能提升。如图1中的wave glider平台所示例，网络边缘的远程物联网（iot）设备经常会遇到降低的网络覆盖率，延迟和带宽。虽然物联网设备通常用作将数据转发到云端的网关，但边缘计算重新考虑了物联网访问安全板载计算资源的可能性。nvidia的jetson嵌入式模块在jetson tx1上提供1 tflop / s的服务器级性能，在功耗低于10w的jetson tx2上提供双倍的ai性能。
jetpack 3.1 带有linux的jetpack 3.1对于tegra（l4t）r28.1是带有长期支持（lts）的jetson tx1和tx2的生产软件版本。用于tx1和tx2的l4t板级支持包（bsp）适用于客户的产品化，其共享的linux内核4.4代码库提供了兼容性和两者之间的无缝移植。从jetpack 3.1开始，开发人员可以在tx1和tx2上访问相同的库，api和工具版本。
表1：jetson tx1和tx2的jetpack 3.1和l4t bsp中包含的软件包版本。nvidia jetpack 3.1 - 软件组件linux tegra r28.1ubuntu 16.04 lts aarch64cuda工具包8.0.82cudnn6.0tensorrt2.1 gagstreamer 1.8.2visionworks1.6opencv4tegra 2.4.13-17tegra系统分析器3.8tegra图形调试器2.4tegra多媒体apiv4l2相机/编解码器api 除了从cudnn 5.1升级到6.0以及维护更新到cuda 8之外，jetpack 3.1还包括用于构建流媒体应用程序的最新视觉和多媒体api。您可以将jetpack 3.1下载到您的主机上，以便使用最新的bsp和工具对jetson进行闪存。
使用tensorrt 2.1进行低延迟推理 jetpack 3.1中包含最新版本的tensorrt，因此您可以在jetson上部署优化的运行时深度学习推断。tensorrt通过网络图优化，内核融合和半精度fp16支持提高推理性能。tensorrt 2.1包括多重配料等关键特性和增强功能，进一步提高了jetson tx1和tx2的深度学习性能和效率，并降低了延迟。
批量大小1的性能得到显着改善，导致googlenet的延迟降至5毫秒。对于延迟敏感的应用程序，批处理大小1提供最低的延迟，因为每一帧在到达系统时都会被处理（而不是等待批量处理多个帧）。如jetson tx2上的图2所示，使用tensorrt 2.1实现了googlenet和resnet图像识别推断的tensorrt 1.0吞吐量的两倍。
图2：使用jetson tx2 max-q和max-p功率曲线的googlenet和resnet-50的推理吞吐量。tensorrt 2.1在googlelenet和resnet上提供了两倍的推理吞吐量。
表2中的等待时间显示批量大小为1时的比例缩减。对于genson tx2，jetson tx2在max-p性能曲线中实现了5ms的延迟，在max-q效率曲线中运行时延迟了7ms。resnet-50在max-p中有12.2ms的延迟，在max-q中有15.6ms的延迟。resnet通常用于提高超越googlenet的图像分类精度，使用tensorrt 2.1可以使运行时性能提高2倍以上。凭借jetson tx2的8gb内存容量，即使在像resnet这样的复杂网络上，也可以实现高达128的大批量生产。
表2：比较tensorrt 1.0和2.1的jetson tx2深度学习推断延迟测量。（越低越好。）网络潜伏加速tensorrt 1.0tensorrt 2.1googlenet，max-q14.5ms7.1ms2.04xgooglenet，max-p11.4ms为5.6ms2.04xresnet-50，max-q31.4ms15.6ms2.01xresnet-50，max-p24.7ms12.2ms2.03x 减少的延迟允许深度学习推理方法用于要求接近实时响应的应用中，如避免碰撞和高速无人机和地面车辆上的自主导航。
自定义图层通过用户插件api支持自定义网络层，tensorrt 2.1能够运行最新的网络和功能，扩展支持包括残余网络（resnet），递归神经网络（rnn），一次只能看一次（yolo）和更快-rcnn。自定义图层是在用户定义的c ++插件中实现的，这些插件实现iplugin了以下代码中的界面。
#include“nvinfer.h”使用命名空间nvinfer1;classmyplugin：iplugin{上市： intgetnboutputs（）const; dimsgetoutputdimensions（intindex，constdims*inputs， intnbinputdims）; voidconfigure（constdims*inputdims，intnbinputs， constdims*outputdims，intnboutputs， intmaxbatchsize）; intinitialize（）; voidterminate（）; size_tgetworkspacesize（intmaxbatchsize）const; intenqueue（intbatchsize，constvoid*inputs， void**outputs，void*工作区， cudastream_t流）; size_tgetserializationsize（）; voidserialize（void*buffer）;保护：虚拟〜myplugin（）{}}; 您可以使用iplugin类似于上述代码的自定义定义来构建自己的共享对象。在用户enqueue()函数内部，您可以使用cuda内核实现自定义处理。tensorrt 2.1使用这种技术来实现用于增强对象检测的faster-rcnn插件。另外，tensorrt为长时间短期记忆（lstm）单元和门控循环单元（gru）提供了新的rnn层，以改进时间序列序列的基于记忆的识别。开箱即用地提供这些功能强大的新图层类型可加速在嵌入式边缘应用程序中部署高级深度学习应用程序。
图3：与jetson一起提供的用于ai研发的机器人参考平台。
nvidia isaac计划随着人工智能能力的快速提升，nvidia推出了艾萨克计划，以推进机器人和人工智能领域的先进技术。isaac是开发和部署智能系统的端到端机器人平台，包括模拟，自主导航堆栈和嵌入式jetson以供部署。为开始开发自主ai，isaac支持图3所示的机器人参考平台。这些jetson驱动的平台包括无人机，无人地面车辆（ugv），无人地面车辆（usv）和人类辅助机器人（hsr）。参考平台提供了一个jetson驱动的基础，可以在实地进行实验，并且该计划将随着时间的推移而扩展，以包含新的平台和机器人。
开始部署ai jetpack 3.1包括cudnn 6和tensorrt 2.1。它现在可用于jetson tx1和tx2。凭借对单批次推断的低延迟性能以及对具有自定义层的新网络的支持，双倍的jetson平台比以往任何时候都更有能力进行边缘计算。要开始开发人工智能，请参阅我们的两天演示系列培训和部署深度学习视觉基元，如图像识别，物体检测和分割。jetpack 3.1大大提高了这些深度视觉原语的性能。

59家企列入投资“黑名单”，禁止美国人与名单所列公司进行投资交易！
中兴微电子能否成为第二个华为海思？
2019年投资谁是主流
中国电信主导的G.osu标准项目已实现成功立项
电动自行车电池防水测试是怎么做的
机器人平台JetPack 3.1使Jetson的低延迟推断性能翻了一番
摄像头CCD模组必备防雷芯
境内比特币交易平台退出市场，ICO已经取缔，表明我国防范金融风险的决心
中移动明年将发布超百款5G手机，销量目标是超1亿部
新鲜出炉的《2017年全球汽车零部件供应商百强榜》
盘式永磁直流电机的结构
pcb常见缺陷汇总
金融和大模型的“两层皮”问题
意法半导体推出汽车级6轴惯性传感器满足先进自动驾驶系统需求
树米科技计划加快完善大数据建模与企业SaaS标准化服务
plc无线通讯方案
如何让水货笔记本英文操作系统支持中文
51单片机的中断体系结构_中断的响应过程
ob2500pcp电源代换芯片PN8370/PN8680
xR的概念、原理与前景分析