大家好,我是程序羊。
上个月gpt-4发布时,我曾写过一篇文章分享过有关gpt-4的几个关键信息。
当时的分享就提到了gpt-4的一个重要特性,那就是多模态能力。
比如发布会上演示的,输入一幅图(手套掉下去会怎么样?)。
gpt-4可以理解并输出给到:它会掉到木板上,并且球会被弹飞。
再比如给gpt-4一张长相奇怪的充电器图片,问为什么这很可笑?
gpt-4回答道,vga 线充 iphone。
用户甚至还可以直接画一个网站草图拍照丢给gpt-4,它就可以立马帮助生成代码。
但是时间过去了这么久,gpt-4像这样的识图功能也迟迟没有开放。
就在大家都在等待这个功能开放的时候,一个名为minigpt-4的开源项目悄悄做了这件事情。
没错,就是为了增强视觉语言理解。
minigpt-4背后团队来自kaust(沙特阿卜杜拉国王科技大学),项目是几位博士开发的。
项目除了是开源的之外,而且还提供了网页版的demo,用户可以直接进去体验。
在线体验:https://minigpt-4.github.io
github仓库:https://github.com/vision-cair/minigpt-4
论文:https://github.com/vision-cair/minigpt-4/blob/main/minigpt_4.pdf
minigpt-4也是基于一些开源大模型来训练得到的。 团队把图像编码器与开源语言模型vicuna(小羊驼)整合起来,并且冻结了两者的大部分参数,只需要训练很少一部分。
训练分为两个阶段。
传统预训练阶段,在4张a100上使用500万图文对,10个小时内就可以完成,此时训练出来的vicuna已能够理解图像,但生成能力有限。
然后在第二个调优阶段再用一些小的高质量数据集进行训练。这时候的计算效率很高,单卡a100只需要7分钟。
并且团队正在准备一个更轻量级的版本,部署起来只需要23gb显存,这也就意味着未来可以在一些消费级的显卡中或许就可以进行本地训练了。
这里也给大家看几个例子。
比如丢一张食物的照片进去来获得菜谱。
或者给出一张商品的照片来让其帮忙写一篇文案。
当然也可以像之前gpt-4发布会上演示的那样,画出一个网页,让其帮忙生成代码。
可以说,gpt-4发布会上演示过的功能,minigpt-4基本也都有。
这一点可以说非常amazing了!
可能由于目前使用的人比较多,在minigpt-4网页demo上试用时会遇到排队的情况,需要在队列中等待。
但是用户也可以自行本地部署服务,过程并不复杂。
首先是下载项目&准备环境:
git clone https://github.com/vision-cair/minigpt-4.git cd minigpt-4 conda env create -f environment.yml conda activate minigpt4
然后下载预训练模型:
最后在本地启动demo:
python demo.py --cfg-path eval_configs/minigpt4_eval.yaml
通过这个项目我们也再一次看出大模型在视觉领域的可行性,未来在图像、音频、视频等方面的应用前景应该也是非常不错的,我们可以期待一下。
Adobe Flash Player获得最后一次更新
使用Nginx三方扩展ngx_waf快速实现一个高性能的Web应用防火墙
ANet-2E4SM模块化通信管理机概述及功能特点
霍尔元件损坏的原因
SLOT 2插槽
MiniGPT-4,开源了!
excel中xlookup函数怎么使用
基于变频器的薄膜电容应用电路图分析
声表面波谐振器稳频的无线数字通信模块设计
2G/3G互操作遇到的问题分析与邻区优化原则
【节能学院】高速公路配电室环境监控系统的应用探讨
图解小米上市 会成为港股的下一个“腾讯”吗?
影响远程访问性能的因素有哪些?远程访问性能优化建议介绍
AGV小车在3C电子行业具备什么优势
彩晶在今年正式打入大陆车载面板供应链
电子爱好者常备的工具和物品,Electronic amateurs tools and items
上海贝岭将携多款功率半导体亮相电机会议
宇通发布了旗下首款纯电动无人驾驶扫路机
SKY POWER 产品组合中最小的单缸发动机
深度学习对机器视觉的好处与应用领域