在加拿大作家玛格丽特•阿特伍德的著作《盲人杀手》中有这样一段描述:“触觉,先于视觉也先于语言,既是第一语言也是最后的语言,并总是诉说真相。”
被编写为视觉或者触觉的机器人一般不能实现此两种感官信息的交互。为打破这种隔绝,来自mit(麻省理工学院)csail(计算机科学与人工智能实验室)的研究团队提出了一种可预测ai,它可以通过触觉信息的训练学习到视觉特征,反之亦然,也能通过视觉信息的训练学习到物体的触觉特征。
该团队所提出的模型可以从视觉信号中“创造”出逼真的触觉信号,并直接利用触觉信息预测所检测目标及触摸部位。他们使用的库卡机械臂上装有一个特殊的触觉传感器gelsight,这是由mit的另一研究团队设计的。
该团队利用一个简单的网络摄像头采集了近200种物体图像,包括工具、家庭用品、纺织物等,这些物体被“触摸”超过12000次。通过将这12000个小视频分解为静态帧从而生成了名为“visgel”的数据集,该数据集包含300多万个视觉-触觉对应的图像。
csall博士生yunzhu li在其一篇相关论文中谈到:“通过观察触摸情景,我们的模型可以“想象”出触摸平坦表面或者尖锐边缘的感觉”,“当机器人只有触觉感官的时候,此模型可以仅凭触觉信号来完成和周围环境的交互。将触觉和视觉这两种感官结合在一起无疑是锦上添花。它还可能减少机器人为完成抓取任务所需的数据集”。
目前使能机器人具备更多感官能力的研究,比如mit在2016年的项目:利用深度学习实现声音可视化、预测物体对外力反应,都使用了大量的训练数据,但不能实现视觉和触觉的交互。该团队使用visgel数据集和生成式对抗网络(gans)实现上述功能。
此gans算法利用视觉或触觉的图像生成其他形式的图像。其原理简而言之,就是gans利用生成器(generator)捏造假的图像试图骗过判别器(discriminator),判别器将辨别结果反馈给生成器以调参,以使得生成器生成更高质量的预期图像,如此相得益彰。
所见即所触
人可以通过观察物体来判断其手感,欲将这种能力赋予机器人,首先要标定目标位置,其次要推断目标区域的形状和手感。
为此,需要一张参考图像,它记录了机器人没有与外界交互时的所处的环境信息。模型在识别过程中会对比当前捕捉到的帧图像和参考图像以轻松判断所触物体的位置和大小。
好比给模型“看”了一张鼠标的图像,模型将预测可能触碰到鼠标的区域,并告诉机器人从而使其实现安全高效的抓取任务。
所触即所见
利用触觉数据产生视觉图像即所谓“所触即所见”。模型通过观察触觉图像推断所接触位置的物体形状和材质,并和参考图像对比进而“想象”出交互过程。
举个例子,将一只鞋的触觉数据传给模型,其输出将是一张图像,这张图像则显示了最有可能触摸到这只鞋的区域位置。
当灯被关掉,或者盲人进入未知区域的时候,这种技能就可以发挥其作用了。
展望
目前的训练数据只能实现特定环境下的交互。该团队希望收集更复杂环境下的训练数据以提升模型的泛化性能。mit的新设计——tactile glove或许可以帮助他们获取更多更密集的训练数据。
翘首以盼,此类模型将协助机器人和其视觉紧密合作以实现无缝的人机交互。这些合作包括对象识别、抓取、场景理解等。
加州大学伯克利分校的博士后andrew owens说:“这是首次提出的视觉和触觉信号可靠的转换方法,此类方法于机器人而言将大有裨益,彼时,它们就可以回答诸如‘这东西的硬度如何?’,‘如果我用手柄握住马克杯,我会握得多好?’的问题,这是一个十分有挑战性的项目,因为问题的信号是如此的不同,其优越性也可见一斑”。
李和mit的教授russ tedrake 、 antonio torralba,博士后jun-yan zhu共同完成这篇论文。它将于下周在加利福尼亚长沙滩上举办的计算机视觉及模式识别大会上发布。
霍尔传感器在自助咖啡机中的应用
柜台电子签名板应该怎么挑选?电子签批板推荐
科普:深度学习真的那么难吗?
realme真我X50 5G将于2020年1月7日发布 将是2020年第一款5G手机
凌锐半导体正式推出新一代1200V 18毫欧和35毫欧SiC MOS
人工智能实现触觉和视觉的信息交互
TI 音频创新日:闭环放大器性能介绍
互联网对于世界的影响有多大
一款专业且全面的嵌入式开发调试工具
你知道perf学习-linux自带性能分析工具怎么用?
三星Gear Fit 2大降价,或预示三代产品面世
手机操作系统:谁来挥舞神经中枢指挥棒
主轴编码器的安装
4G DTU模块的应用以及4G DTU模块的功能和特点
尝鲜需慎重!苹果发布iOS 12 Beta 6公测版
智慧农业解决方案助力农业生产,促进品质增长
rk3588相当于骁龙什么芯片?
浅析收费WIFI与免费WIFI有哪些区别
USB3.0时代来临,你的保护电路准备好了吗?
放大器芯片的作用是什么