如何用图神经网络(GNN)做CV的研究

用图神经网络(gnn)做cv的研究有不少,但通常是围绕点云数据做文章,少有直接处理图像数据的。其实与cnn把一张图片看成一个网格、transformer把图片拉直成一个序列相比,图方法更适合学习不规则和复杂物体的特征。
近期中科院与华为诺亚方舟实验室等提出一种全新的骨干网络,把图片表示成图结构数据,让gnn也能完成经典cv三大任务。
该论文引起gnn学者广泛关注。有人认为gnn领域积累多年的技巧都将涌入这一新方向,带来一波研究热潮。
在研究团队看来,图结构是一种更通用的数据结构。甚至网格和序列可以当作图结构的特例,用图结构来做视觉感知会更加灵活。图数据由节点和边组成,如果把每个像素都看作节点计算难度过于大了,因此研究团队采用了切块(patch)方法。
对于224x224分辨率的图像,每16x16像素为一个patch,也就是图数据中的一个节点,总共有196个节点。对每个节点搜索他们距离最近的节点构成边,边的数量随网络深度而增加。接下来,网络架构分为两部分:一个图卷积网络(gcn),负责处理图数据、聚合相邻节点中的特征。一个前馈神经网络(ffn),结构比较简单是两个全连接层的mlp,负责特征的转换。
传统gcn会出现过度平滑现象,为解决这个问题,团队在图卷积层前后各增加一个线性层,图卷积层后再增加一个激活函数。
实验表明,用上新方法,当层数较多时vig学习到的特征会比传统resgcn更为多样。
为了更准确评估vig的性能,研究团队设计了vit常用的同质结构(isotropic)和cnn常用的金字塔结构(pyramid)两种vig网络,来分别做对比实验。同质架构vig分为下面三种规格。
与常见的同质结构cnn、vit与mlp网络相比,vig在同等算力成本下imagenet图像分类的表现更好。金字塔结构的vig网络具体设置如下。
同等算力成本下,vig也与最先进的cnn、vit和mlp相比,性能也能超越或表现相当。
在目标检测和实例分割测试上,vig表现也与同等规模的swin transformer相当。
最后,研究团队希望这项工作能作为gnn在通用视觉任务上的基础架构,pytorch版本和mindspore版本代码都会分别开源。


傅里叶变换公式理解
什么是解调?AM波、FM波的解调原理
基于AM5728进行U-Boot编译步骤教程详解
SiC器件频繁在高功率工业驱动中应用
罗德与施瓦茨SMB100A射频发生器介绍
如何用图神经网络(GNN)做CV的研究
小米推迟CDR发行申请,择机启动还是估值问题?
长安汽车入围“新一代人工智能产业创新重点任务入围揭榜单位”
基于智能开关的两种电源方案
反无人机防御系统的作用是什么,它有哪些特点
新能源汽车产销量的爆发 推动了电池用量的提升
浅谈骁龙888名字的由来
红米Note7Pro和iPhone7哪个好
呼兰携手iQOO品牌跨界开show,吐槽职场辛酸
为何多数人都用微信使QQ闲置, 还依然不愿意放弃这只“企鹅”?
ios10.3跳票,苹果今晨急急忙忙上线新系统
三极管基础知识科普
荣耀9和荣耀v9哪个好?华为荣耀9和荣耀v9区别对比
国内的模拟芯片行业的发展还需要些什么
机器狗入切尔诺贝利禁区执行测试任务