人工智能对计算机系统及体系结构的挑战

百度称得上是国内应用深度学习的先锋，早在2012年初，百度就在语音识别上开始规模应用深度学习算法并取得了非常好的效果。当年年底，百度ceo李彦宏宣布成立公司的第一个研究院：百度深度学习研究院。当时，世界上只有谷歌、微软等少数几个公司公开宣布在深度学习、人工智能领域进行战略性的资金投入。
经过四年的发展，百度深度学习技术已经渗透到百度的各个产品中，如网页搜索、广告点击率预估模型、百度杀毒等。深度学习技术极大地提高了百度产品的用户体验。例如百度的语音识别，经过四年的磨练，其识别准确率从当初的80%提高到今天的96%。
除了率先在各个产品线引入前沿的深度学习算法外，百度在人工智能应用方面还有更长远的布局：
1. 建立百度研究院，下设硅谷人工智能实验室、北京深度学习实验室、北京大数据实验室等三大前沿实验室。
2. 2014年，人工智能领域最负盛名的权威学者吴恩达加入百度。
3. 同年，在百度技术开放日发布了大数据引擎，对外开放大数据及人工智能能力。
4. 在百度技术节上，百度高级副总裁王劲描绘了“万物智能”的愿景，展示了百度为迎接万物智能时代所做的技术布局。
5. 2015年在百度世界大会上推出了“度秘”。度秘是万物皆智能的一个集中体现，可成为人们生活中的智能秘书，通过语音对话或者图像可以自然地和人进行交流，甚至都不需要事先的交互，仅凭借历史信息、传感器信息、周围环境变化就能判断一个人的需求。如果你饿了，它可以帮你订餐；你生病了，可以告诉你吃什么药；如果明天下雨，会提醒你带上伞；若你需要出行，会帮你订好酒店、机票等等。不过，这些看似平常的“秘书”服务，如果要真正达到好用的状态，还需要有非常先进的人工智能技术做支撑。
人工智能对计算机系统及体系结构的挑战：
人工智能的应用包括云（数据中心）和端（智能设备）两部分。云端除了训练（离线训练），还有在线服务。训练是指利用训练数据，选择合适的训练方法，训练出一个模型。在线服务是指利用训练出来的模型在线响应用户的请求。端部分也是人工智能的一个强需求，按照“万物智能”的愿望，很多终端设备，如智能辅助驾驶、无人车、智能摄像头、工业物联网（internet of things，iot）等等，都能运行人工智能的算法，智能地响应外部请求。
深度学习的离线训练是工业界和学术界研究最多、关注最多的领域。自深度学习热潮席卷而来，无论是学术界还是工业界，涌现了很多新的、面向深度学习算法和应用设计的系统，如谷歌提出的参数服务器（parameter server），其他人通过借鉴这一思想，根据不同的应用场景，设计了各种不同的系统。
在体系结构方面，深度学习训练大多是基于图形处理单元（gpu）及无限带宽（infiniband）的高速互联网络。使用图形处理单元来做大规模的矩阵计算，再用无线带宽高速网络进行分布式参数更新。这种架构在工业界应用非常普遍，很多专有的服务器里通常带有8个图形处理单元，服务器之间则通过无线带宽互联。很多论文都在研究如何利用服务器内8个图形处理单元的局部性、无限带宽的远程直接数据存取（remote direct memory acces，rdma）以及图形处理单元的计算能力来完成完整的分布式深度学习训练任务。图形处理单元加无限带宽的硬件架构目前比较适用于深度学习的训练以及工业界的规模应用。这是因为这两种硬件的性能都不错，而供应商众多，容易获得产品及技术支持。
在线服务方面，无论是工业界还是学术界，公开的信息都比较少。能有机会进行大规模部署人工智能服务的，只有像百度这样技术驱动的大型互联网公司，而这些公司一般出于保密考虑，会延后发布自己的核心技术。至于人工智能的终端设备，虽然媒体一直在勾画这个领域的宏伟蓝图，但实际上能成功进行规模应用的并不多，所以工业界和学术界对这部分内容公开得也比较少。
其实，无论是离线训练、在线服务还是智能设备，内部运行的都是一些常用的深度学习算法，如深层神经网络（deep neural networks，dnn）、递归神经网络（recurrent neural network，rnn）/长短时神经网络（long short term memory，lstm）、卷积神经网络（convolutional neural network，cnn）。这些算法存在一些共性，比如（1）都是计算和访存密集型；（2）主要的计算算子是矩阵操作、卷积、激活函数等；（3）对于离线训练，考虑到分布式实现，对节点间的通信带宽和延时要求很高。
从大规模部署应用的角度看，无论是哪种类型的应用，衡量体系结构好坏的最终标准是效率，包括能耗效率和成本效率。只有这两个效率足够高，体系结构才有生命力。例如对于嵌入式终端，往往需要考虑极致的能耗效率和成本效率，有时候甚至需要对算法做些剪枝和模型规模限制。对于数据中心而言，成本和功耗也是规模部署要考虑的第一要素。
如今，人们一提到深度学习的硬件架构，首先就会想到图形处理单元。这主要是因为，在便于采购的硬件里，图形处理单元确实能提供较好的数学计算能力和访存带宽。但对于能耗和成本效率，即使应用在数据中心，图形处理单元离我们的目标也还有很大的改进空间。所以我们需要重新思考，如何面向人工智能的典型应用和算法，设计一种新的、通用的体系结构。这种体系结构既能实现极致的能耗和成本效率，也能灵活延伸扩展，易于支持离线训练、在线服务和智能终端三种场景。

国产“核芯”技术受制于人两大领域打响反击战
三大运营商业绩负增长争来争去最终都亏损
Linux进程间的五种通信方式介绍 6
能点烟的山寨手机强力现身
One Plus 6T的渲染图近期有了新的消息
人工智能对计算机系统及体系结构的挑战
5G传输中面临的问题怎么解决？
i5处理器怎么样
诺基亚贝尔率先引领5G潮流
NJW4800 提供4A电流的通用半桥驱动器
把机器人操作系统（ROS）正式引入Win10！
HoloLens、Magic Leap One、daystAR G1深度体验
IMG.L宣布视频编码器IP中新增对VP8视频编解码技术的支持
土壤含水量测定仪是什么，它的作用是什么
sql语句中having的用法
基于ZCU106实现PL PCIE Tandem PROM功能从而满足100MS之内主板能识别PCIE接口
晶体管开关速度有两种方法可以考虑一下
软件开发平台Omniverse Kit 104：轻松创建自定义元宇宙应用
ST提升8位微控制器STMTouch的内置触控性能
人脸识别对于我们来说是风险还是便捷?