据外媒,知名机器学习公司openai近日推出两套多模态人工智能系统模型dall-e和clip,dall-e可以基于文本直接生成图像,clip能够完成图像与文本类别的匹配。dall-e可以将以自然语言形式表达的大量概念转换为恰当的图像,并使用了gpt-3 同样的方法,只不过dall-e将其应用于文本-图像对。
另一个神经网络clip能够执行一系列视觉识别任务。给出一组以语言形式表述的类别,clip能够立即将一张图像与其中某个类别进行匹配,而且它不像标准神经网络那样需要针对这些类别的特定数据进行微调。在imagenet基准上,clip的性能超过resnet-50,在识别不常见图像任务中的性能远超resnet。
虽然clip在识别常见对象时往往表现良好,但在计算图像中对象数量等更抽象或更系统的任务,以及预测照片中最靠近车辆间的距离等更复杂任务上的表现不佳。在这两项任务上,zero-shot clip的效果也只比随机猜测好一点。
为什么软启动器复位后电动机才能启动?
12V3A电脑电视辅助电源ic SF5773主要特性
1602液晶引脚图及液晶接口原理图解析
氮掺杂石墨烯的稳定结构与其中的氮原子浓度密切相关
风河VxWorks成为黑鹰直升机驾驶舱数字化核心技术
OpenAI推出两套多模态人工智能系统模型
电容产品蠢蠢欲动,日本两大铝电容厂商相继宣布涨价
英飞凌推出REAL3 ToF图像传感器
国内高管公布O-RAN产品路线图
三大芯片巨头角逐2nm技术
深圳产品创新_2012便携产品创新技术展
一文读懂自动驾驶域控制器
MCU单片机并行通讯的原理参考
基于时间分辨的镧系发光纳米探针
无电感DC-DC升压式转换器AS1302可同时实现低输入纹波和低输出纹波
车联网智能终端产业联盟成立 构建合作共赢新生态
电源出现故障的五个主要原因
你担心身边的辐射吗
可见光照度传感器的产品特性
了解黑客如何利用机器学习来识别目标系统中的漏洞