最新的chatgpt能讲故事、进行语音对话,还会看图。openai将能看图的模型称作gpt-4v(ision),还测试了gpt-4v的验证码破解及地理定位能力。语音与图像数据大小显著高于文本,券商指出,多模态大模型的训练推理算力需求将大幅攀升。
当地时间25日,openai宣布chatgpt迎来重磅更新:这个聊天机器人如今“会看、会说、会听”——换言之,chatgpt加入了语音与图像功能。未来两周内,plus用户与企业用户便能体验新功能,开发人员等其他用户群体也有望在不久的将来体验。
其中,最受外界关注的是chatgpt的图像理解能力。据介绍,用户可以向chatgpt展示一张或多张图片,排查为何烧烤炉无法启动,检查冰箱里的菜能做什么美食,或分析复杂图表得出数据。若想让chatgpt关注图片中的特定部分,还可以使用app中的绘图工具高亮标注。
在openai给出的示例视频中可以看到,当用户向chatgpt发送一张自行车照片、询问如何调低车垫时,chatgpt不仅会自发观察自行车型号、辨认零部件、给出详细步骤,还会看说明书,并分辨用户现有工具能否完成这项工作。
值得注意的是,同日发布的一篇论文中,openai将这一能看图的模型称作gpt-4v(ision)。该模型在2022年已完成训练,之后在2023年早些时候开始早期测试访问。
借助gpt-4v,今年3月openai与be my eyes组织合作开发be my ai,可为盲人与视力障碍人士描述外界世界。测试表明,be my ai可为50万盲人和视力障碍用户提供工具,满足他们在信息、文化和就业方面的需求。
另外,openai还测试了gpt-4v的验证码破解及地理定位能力,前者表明模型具备解决谜题与执行复杂视觉推理任务的能力,后者则展现出了模型在搜索物品/地点的用处。但这两项功能将涉及网络安全及隐私问题。
至于本次更新的另一语音识别与生成功能,openai表示,用户可以用这一功能为孩子讲述睡前故事,还可以在吵架时作为帮手。
openai与专业配音演员合作,提供了5种不同的声音。另外,公司还与spotify展开合作,通过这一功能将播客翻译为其他语言,同时保留播客主持人的声音。
值得一提的是,数据显示,近期chatgpt流量回升。similarweb数据显示,9月11日那一周,chatgpt流量较前一周增长约12%。另一家分析公司sensor tower报告称,8月最后两周全球chatgpt应用程序用户每周增长超过10%。据悉,流量增长的主要原因为学生开始返校,且印度及巴西市场迎来增长。
▌多模态大模型成兵家必争之地 算力需求显著攀升
如今,多模态功能已成为各家ai大模型的必争之地。meta最近推出audiocraft,通过ai生成音乐;谷歌bard及必应机器人均已部署多模式功能;苹果也在试验ai生成语音personal voice。
随着ai感知、交互与生成能力快速发展,应用场景与生态也有望进一步丰富。而语音与图像数据大小显著高于文本,券商指出,多模态大模型的训练推理算力需求将大幅攀升。
例如被谷歌寄予厚望的多模态大模型gemini,据semianalysi分析师dylan patel和daniel nishball透露,其已开始在tpuv5 pod上进行训练,算力高达~1e26 flops,是训练gpt-4所需算力的5倍。
华为副董事长、轮值董事长、cfo孟晚舟日前也表示,“人工智能的发展,算力是核心驱动力。大模型需要大算力,算力大小决定着ai迭代与创新的速度,也影响着经济发展的速度。算力的稀缺和昂贵,已经成为制约ai发展的核心因素。”
国信证券指出,ai三元素(大模型、算力、应用)呈螺旋式促进关系。ai三元素以“模型更新-算力芯片迭代、单位tokens成本降低-应用增加”循环往复,当三者中有一个要素喷发,就是强刺激期;三者同时没有更新,就会进入停滞期,等待下次爆发。
多模态大模型是未来发展趋势。通过将不同数据类型相互关联结合,可以大幅提高模型准确性和鲁棒性,应用场景进一步拓展。
同时,3月谷歌发布多模态具身视觉语言模型(vlm)palm-e,其可用于机器人领域;7月谷歌发布新一代视觉-语言-动作(vla)模型robotics transformer 2(rt-2),专用于机器人领域,看好大模型赋能机器人趋势,分析师看好大模型赋能机器人。
2020年全球智能手机产量同比下降11%
工控机安装时出现的故障及注意事项
雷蛇笔记本水银版,除了更薄更快更时尚,还有什么?
再见了!微软宣布停服Windows Phone 8.1系统
限幅器原理是什么?
ChatGPT迎重磅升级 算力需求喷发可期
Cerence Ride为隆鑫全球摩托车品牌带来对话式AI体验
关于C程序源代码是如何在硬件上运行的?
三星研发苹果AirPower无线充电垫,这是借鉴还是抄袭
山东省正式发布了5G试点示范企业及项目行业应用名单
迅为国产嵌入式开发板平台选型
长电科技举办线上技术论坛:面向新兴应用,拓展技术边界
移远通信“5G+WiFi6”带来更具性价比的连网方案
DevOps如何增强物联网
华为首款搭载Harmonyos体验分布式技术的摄像头发布
生物有机肥检测仪器厂家@2021检测仪器
Imagination推出专为低功耗应用而设计的第二代IEEE 802.11n Wi-Fi硅知识产权(IP)产品
iW3662和iW3688加持,Dialog在照明领域再上新台阶
发烧耳机基础知识
微型断路器的原理说明