精准图片搜索 OpenAI最新技术 CLIP

别再怕图片搜索结果牛头不对马嘴了,你可以试试这个 精准图片搜索,来自 openai最新的技术 clip。
只需一句 “大白话”描述,便能给出想要的图片。
例如输入:
the word love written on the wall
就会得到这样的结果:
可以说是相当的 精准了!这就是今天在reddit上爆火的一个项目。
这个项目利用到的,便是 openai前不久频频刷屏的dall·e 中的核心模块—— clip,一个负责重排序 (rerank)的模型。
这个项目使用谷歌colab notebook,而且在线、免费,包含200万图片数据集,最重要的是效果还非常的精准。
不禁引得网友直呼“ amazing”。
简单几步,“大白话”在线精准搜图
这个项目之所以如此火爆, 操作简单是很重要的一个原因之一。
首先要做的,就是点开该项目在colab notebook中的地址 (见文末链接),登陆自己的账号。
至于环境配置、包或库的调用,这个项目非常贴心的已经做好了,只需要依次点击cell左侧的小三角,等待运行完成即可。
最后,来到包含如下代码的cell:
search_query = “two dogs playing inthe snow”
点击运行这个cell,便可得到搜索图片的结果,例如:
当然,这个程序似乎很懂人,若是输入“当你的代码跑通时的情绪”:
the feeling when your program finallyworks
得到的结果,和正常人想象中的应该是一致的:
为什么clip搜图能如此精准?
openai前不久推出的dall·e,主要能实现的功能就是 可以按照文字描述、生成对应图片。
而其呈现给我们的最终作品,其实是它生成大量图片中的一部分。
在中间过程中,其实也有排名、打分的帅选过程。
这部分的任务,便是由 clip来完成:
越是它看得懂、匹配度最高的作品,分数就会越高,排名也会越靠前。
这种结构,有点像是利用生成对抗文本,以合成图像的 gan。
不过,相比于利用gan扩大图像分辨率、匹配图像-文本特征等方法,clip则选择了直接对输出进行排名。
据研究人员表示,clip网络的 最大意义在于,它缓解了深度学习在视觉任务中,最大的两个问题。
首先,它 降低了深度学习需要的数据标注量。
相比于手动在imagenet上,用文字描述1400万张图像,clip直接从网上已有的“文字描述图像”数据中进行学习。
此外,clip还能“身兼多职”,在各种数据集上的表现都很好 (包括没见过的数据集)。
但此前的大部分视觉神经网络,只能在训练的数据集上有不错的表现。
例如,clip与resnet101相比,在各项数据集上都有不错的检测精度,然而resnet101在除了imagenet以外的检测精度上,表现都不太好。
具体来说,clip用到了零样本学习 (zero-shot learning)、自然语言理解和多模态学习等技术,来完成图像的理解。
例如,描述一只斑马,可以用“马的轮廓+虎的皮毛+熊猫的黑白”。这样,网络就能从没见过的数据中,找出“斑马”的图像。
最后,clip将文本和图像理解结合起来,预测哪些图像,与数据集中的哪些文本能完成最好的配对。
网友:机器人(bot)可能不太高兴
在惊叹clip用“大白话”搜索图片效果之余,一位reddit网友还发现了一个比较有意思的搜索结果。
他在文本描述的代码部分输入:
what image best represents how you feel right now?
这句话在我们人类眼中,应当是询问ai的语气了,然后出来的图片结果是这样的:
还有这样的:
嗯,看来是被“玩多了”,ai宝宝有点小脾气了。

解决方案制胜的半导体市场
有源视频滤波器
政策频频助推 安防行业超高清化是必然趋势
热电偶在缺氧保护装置中的应用
苹果、华为和高通下代手机芯片都是7nm制程工艺,有什么优势?
精准图片搜索 OpenAI最新技术 CLIP
MEMS传感器的主要分类和应用领域有哪些?
电子元件芯片供应紧缺,致汽车生产可能面临中断风险
海信中标老挝万象快速公交BRT项目,打造“一带一路”智慧交通新标杆
EtherCAT控制器在多通道视觉飞拍与多点精准输出上的应用
嵌入式测试为串行I/O提供真正的价值
SoC FPGA带来全新而开放的ISA选择
瑞萨电子通用MCU累计出货量已超过85亿颗
ACDC转换器的作用及工作原理_ACDC转换器电路结构_ACDC变换器电路设计
什么是车门闭锁器?浅谈汽车中控锁与闭锁器之间的区别
本质安全型防爆激光对射防爆的原理及特点介绍
海信AI技术发力抗击疫情
索尼大法太赞了 蓝光播放器UBP-X700还挺会玩
再电气化是能源革命根本路径 把握电网枢纽地位至关重要
智慧校园建设下 综合安防系统是必要配备