计算机视觉开始一门新兴人工智能

本文作者魏秀参，本文首发于作者的知乎专栏《欲穷千里目》， ai研习社获其授权发布。
计算机视觉 (computer vision, cv) 是一门研究如何使机器“看”的科学。1963年来自mit的larry roberts发表的该领域第一篇博士论文“machine perception of three-dimensional solids”（），标志着cv作为一门新兴人工智能方向研究的开始。
在发展了50多年后的今天，我们就来聊聊最近让计算机视觉拥有「无中生有」能力的几个有趣尝试：1）超分辨率重建；2）图像着色；3）看图说话；4）人像复原；5）图像自动生成。可以看出，这五个尝试层层递进，难度和趣味程度也逐步提升。（注：本文在此只谈视觉问题，不提太过具体的技术细节，若大家对某部分感兴趣，以后再来单独写文章讨论 :)
超分辨率重建 (image super-resolution)
去年夏天，一款名为“waifu 2x”（）的岛国应用在动画和计算机图形学中着实火了一把。waifu 2x借助深度「卷积神经网络」(convolutional neural network, cnn) 可以将图像的分辨率提升2倍，同时还能对图像降噪。简单来说，就是让计算机「无中生有」的填充一些原图中并没有的像素，从而让漫画看起来更清晰真切。大家不妨看看下图，真想童年时候看的就是如此高清的龙珠（）啊！
不过需要指出的是，图像超分辨率的研究始于2009年左右，只是得力于「深度学习」的发展，waifu 2x可以做出更好的效果。在具体训练cnn时，输入图像为原分辨率，而对应的超分辨率图像则作为目标，以此构成训练的“图像对” (image pair)，经过模型训练便可得到超分辨率重建模型。waifu 2x的深度网络原型基于香港中文大学汤晓欧教授团队的工作[1]。有趣的是，[1]中指出可以用传统方法给予深度模型以定性的解释。如下图，低分辨率图像通过cnn的卷积 (convolution) 和池化 (pooling) 操作后可以得到抽象后的特征图 (feature map)。基于低分辨率特征图，同样可以利用卷积和池化实现从低分辨率到高分辨率特征图的非线性映射 (non-linear mapping)。最后的步骤则是利用高分辨率特征图重建高分辨率图像。实际上，所述三个步骤与传统超分辨率重建方法的三个过程是一致的。
图像着色 (image colorization)
顾名思义，图像着色是将原本「没有」颜色的黑白图像进行彩色填充。图像着色同样借助卷积神经网络，输入为黑白和对应彩色图像的image pair，但是仅仅通过对比黑白像素和rgb像素来确定填充的颜色，效果欠佳。因为颜色填充的结果要符合我们的认知习惯，比如，把一条汪星人的毛涂成鲜绿色就会让人觉得很怪异。于是近期，早稻田大学发表在2016年计算机图形学国际顶级会议siggraph上的一项工作[2]就在原来深度模型的基础上，加入了「分类网络」来预先确定图像中物体的类别，以此为“依据”再做以颜色填充。下图分别是模型结构图和颜色恢复demo，其恢复效果还是颇为逼真的。另外，此类工作还可用于黑白电影的颜色恢复，操作时只需简单的将视频中每一帧拿出来作colorization即可。
看图说话 (image caption)
常说“图文并茂”，文字是除图像外另一种描述世界的方式。近期，一项名为“image caption”的研究逐渐升温起来，其主要任务是通过计算机视觉和机器学习的方法实现对一张图像自动地生成人类自然语言的描述，即“看图说话”。值得一提的是，在今年的cv国际顶会cvpr上，image caption被列为了一个单独的session，其热度可见一斑。一般来讲在image caption中，cnn用来获取图像特征，接着将图像特征作为语言模型lstm（rnn的一种）的输入，整体作为一个「end-to-end」的结构进行联合训练，最终输出对图像的语言描述（见下图）。
目前image caption领域的最好结果[3]来自澳大利亚university of adelaide的chunhua shen教授（）团队。与之前image caption工作相比，他们的改进与刚才提到的颜色恢复简直有异曲同工之妙，同样是考虑利用图像中物体的类别作为较精准的“依据”来更好的生成自然语言描述，即下图中的红色框框圈起的部分。image caption的急速发展不仅加速了cv和nlp在ai大领域内的交融，同时也为增强现实应用奠定了更加坚实的技术基础。另外，我们更乐于看到今后日趋成熟的image caption技术嵌入到穿戴式设备上，那一天盲人便可以间接的“看到光明”。
人像复原 (sketch inversion)
就在六月初，荷兰科学家在arxiv上发布了他们的最新研究成果[4]——通过深度网络对人脸轮廓图进行「复原」。如下图所示，在模型训练阶段，首先对真实的人脸图像利用传统的线下边缘化方法获得对应人脸的轮廓图，并以原图和轮廓图组成的“图像对”作为深度网络的输入，进行类似超分辨率重建的模型训练。在预测阶段，输入为人脸轮廓（左二sketch），经过卷积神经网络的层层抽象和后续的“还原”可以逐步把相片般的人脸图像复原出来（右一），与最左边的人脸真实图像对比，足够以假乱真。在模型流程图下还另外展示了一些人像复原的结果，左侧一列为真实人像，中间列为画家手工描绘的人脸轮廓图，并以此作为网络输入进行人像复原，最终得到右侧一列的复原结果——目测以后刑侦警察再也不用苦练美术了。
结语
如今借着「深度学习」的东风，计算机视觉中绝大多数任务的performance都被“刷”上了新高，甚至连“人像复原”，“图像生成”类似「无中生有」的“奇谈”都能以较高质量地实现，着实让人们激动不已。不过尽管如此，事实上距离所谓的颠覆人类的ai“奇点”还相当遥远，并且可以预见，现阶段甚至相当长的一段时间内，计算机视觉或人工智能还不可能做到真正意义上的「无中生有」，即“自我开创”或称为“自我意识”。
然而，也非常庆幸我们可以目睹并且亲身经历这次计算机视觉乃至是整个人工智能的革命浪潮，相信今后一定还会有更多「无中生有」般的奇迹发生。此刻，我们站在浪潮之巅，因此我们兴奋不已、彻夜难眠。
references:
[1] chao dong, chen change loy, kaiming he, xiaoou tang.image super-resolution using deep convolutional networks,ieee transactions on pattern analysis and machine intelligence, preprint, 2015.（）
[2] satoshi iizuka, edgar simo-serra, and hiroshi ishikawa.let there be color!: joint end-to-end learning of global and local image priors for automatic image colorization with simultaneous classification,in proc. of siggraph 2016, to appear.（）
[3] qi wu, chunhua shen, lingqiao liu, anthony dick, anton van den hengel.what value do explicit high level concepts have in vision to language problems,in proc. of cvpr 2016, to appear.（）
[4] yağmur güçlütürk, umut güçlü, rob van lier, marcel a. j. van gerven.convolutional sketch inversion,arxiv:1606.03073.（）
[5] ian j. goodfellow, jean pouget-abadie, mehdi mirza, bing xu, david warde-farley, sherjil ozair, aaron courville, yoshua bengio.generative adversarial nets,in proc. of nips 2014.（）
[6] jianwen xie, song-chun zhu, ying nian wu.synthesizing dynamic textures and sounds by spatial-temporal generative convnet,arxiv:1606.00972.（）

中科曙光数创将开始研究数据中心的未来发展方向
自复式过欠压保护器的现实意义及其价值的介绍
紫外杀菌灯UL 8802评估及标准解读
AMD锐龙7000系列价格大跳水，相比首发价低了21％
手机信号放大器是否有辐射，是否对人体有害
计算机视觉开始一门新兴人工智能
混的最惨的日本车，性能超奥迪A6，讴歌降价20万依然没人买
嵌入式开发如何快速进阶？有捷径？
泰科天润碳化硅高电压产品率先突破车规级可靠性认证
腾讯云在线教育互动课堂方案的设计与技术挑战
用zigbee技术实现智能路灯控制方案推荐
采用理想二极管的电源电路是一种什么样的电路？
涉嫌盗取三星OLED技术卖给中国，韩国逮捕11人
小米7什么时候上市？小米7最新消息：小米7渲染图曝光，配置性能功能值得期待
与4G产品相比,5G利润率能提升多大?
可穿戴汗液传感器助力监测患者血液状况
如何维持LED显示屏稳定性
电动车控制器功能
Keysight MSOS804A示波器
【新品发布】DSGW-130智能触屏网关介绍