meta 宣布推出一个全新的 ai 模型 image joint embedding predictive architecture (i-jepa),可通过对图像的自我监督学习来学习世界的抽象表征,实现比现有模型更准确地分析和完成未完成的图像。
目前相关的训练代码和模型已开源,i-jepa 论文则计划在下周的 cvpr 2023 上发表。
根据介绍,i-jepa 结合了 meta 首席 ai 科学家 yann lecun 所提倡的类人推理方式,帮助避免 ai 生成图像常见的一些错误,比如多出的手指。
i-jepa 在多项计算机视觉任务上表现出色,且计算效率比其他广泛使用的计算机视觉模型高得多。
i-jepa 学习的表征也可以用于许多不同的应用程序,而无需进行大量微调。
例如,项目团队在 72 小时内使用 16 个 a100 gpu 训练了一个 632m 参数的视觉转换器模型,i-jepa 在 imagenet 上的 low-shot 分类中性能表现最优,每个类只有 12 个标记示例。
其他方法通常需要 2 到 10 倍的 gpu 时间,并且在用相同数量的数据进行训练时错误率更高。 i-jepa 背后的想法是以更类似于人类一般理解的抽象表示来预测缺失的信息。
i-jepa 使用抽象的预测目标,潜在地消除了不必要的 pixel-level 细节,从而使模型学习更多语义特征。
另一个引导 i-jepa 产生语义表征的核心设计选择是多块掩码策略。
具体来说,项目团队证明了使用信息丰富的(空间分布的)上下文来预测包含语义信息(具有足够大的规模)的大块的重要性。
i-jepa 中的预测器可以看作是一个原始的(和受限的)世界模型,它能够从部分可观察的上下文中模拟静态图像中的空间不确定性。
更重要的是,这个世界模型是语义的,因为它预测图像中不可见区域的高级信息,而不是 pixel-level 细节。
为了解模型捕获的内容,团队还训练了一个随机解码器,将 i-jepa 预测的表征映射回像素空间。
这种定性评估表明该模型正确地捕获了位置不确定性并生成了具有正确姿势的高级对象部分(例如,狗的头、狼的前腿)。
简而言之,i-jepa 能够学习对象部分的高级表示,而不会丢弃它们在图像中的局部位置信息。
无刷电机位置传感器:磁敏式、光电式和电磁式的简介
斑马技术荣获2015“物联之星”RFID行业十大最具影响力国际品牌奖
为什么电流相同时,电感和电容的电压函数相反?
由CD4011构成的CMOS电子催眠器电路图,CD4011 Hypnosis circuit
人脸识别技术有什么功能
Meta开源I-JEPA,“类人”AI模型
六种不同类型的编码器 对应旋转和线性编码器有什么区别?
中芯国际与ASML签订购买单,意味着什么?
京东智能社区2.0首发大会圆满落幕
2019年将有更加智能的AI机器人诞生
Google推出基于AmpereOne处理器的C3A实例
单向可控硅和双向的区别在哪
曝Navi至少有两个版本 最高版本性能超过RTX2070
就因为多投入的240亿美元中国在5G技术方面就可以超越美国了吗?
什么是CAN通信呢?通俗的讲一讲CAN通信
iPhone13预约火爆,不亏是“十三香”
三星控制存储产品价格上涨 中国政府正式介入存储市场干预
深度解析车载摄像头核心技术
人工智能的融入 让新的智能分析在监控业务中取得了重大的突破
Sonos 智能 WiFi 音箱:六扬声器可插网线,具备 3.5mm 模拟输入功能