基于扩散模型的图像生成过程

近年来,扩散模型在文本到图像生成方面取得了巨大的成功,实现了更高图像生成质量,提高了推理性能,也可以激发扩展创作灵感。
不过仅凭文本来控制图像的生成往往得不到想要的结果,比如具体的人物姿势、面部表情等很难用文本指定。
最近,谷歌发布了mediapipe diffusion插件,可以在移动设备上运行「可控文本到图像生成」的低成本解决方案,支持现有的预训练扩散模型及其低秩自适应(lora)变体
背景知识
基于扩散模型的图像生成过程可以认为是一个迭代去噪过程。
从噪声图像开始,在每个步骤中,扩散模型会逐渐对图像进行降噪以生成符合目标概念的图像,将文本提示作为条件可以大大提升图像生成的效果。
对于文本到图像生成,文本嵌入通过交叉注意层连接到图像生成模型上,不过仍然有部分信息难以通过文本提示来描述,比如物体的位置和姿态等。
为了解决这个问题,研究人员提出引入额外的模型添加到扩散模型中,在条件图像中注入控制信息。
常用的控制文生图方法包括:
1. 即插即用(plug-and-play)用到去噪扩散隐式模型(ddim)inversion方法,从输入图像开始反转生成过程来导出初始噪声输入,然后采用扩散模型(stable diffusion1.5的情况下需要8.6亿参数)对来自输入图像的条件进行编码。
即插即用从复制的扩散中提取具有自注意力的空间特征,并将其注入到文本转图像的扩散过程中。
2. controlnet会创建扩散模型编码器的一个可训练副本,通过零初始化参数后的卷积层连接,将传递到解码器层的条件信息进行编码。
3. t2i adapter是一个较小的网络(7700万参数),在可控生成中可以实现类似的效果,只需要将条件图像作为输入,其输出在所有扩散迭代中共享。
不过t2i适配器模型并不是为便携式移动设备设计的。
mediapipe diffusion插件
为了使条件生成更高效、可定制且可扩展,研究人员将mediapipe扩散插件设计为一个单独的网络:
1. 可插入(plugable):可以很容易地与预训练基础模型进行连接;
2. 从零开始训练(trained from scratch):不使用来自基础模型的预训练权重;
3. 可移植性(portable):可以在移动设备上运行基础模型,并且推理成本相比原模型来说可以忽略不计。
即插即用、controlnet、t2i适配器和mediapipe扩散插件的对比,*具体数字会根据选用模型不同而发生变化
简单来说,mediapipe扩散插件就是一个用于文本到图像生成的,可在便携式设备上运行的模型,从条件图像中提取多尺度特征,并添加到相应层次扩散模型的编码器中;当连接到文生图扩散模型时,插件模型可以向图像生成提供额外的条件信号。
插件网络是一个轻量级的模型,只有600万参数,使用mobilenetv2中的深度卷积和反向瓶颈(inverted bottleneck)在移动设备上实现快速推理。
mediapipe扩散模型插件是一个单独的网络,输出可以插入到预训练的文本到图像生成模型中,提取的特征应用于扩散模型的相关下采样层(蓝色)。
与controlnet不同,研究人员在所有扩散迭代中注入相同的控制功能,所以对于图像生成过程只需要运行一次插件,节省了计算量。
下面的例子中可以看到,控制效果在每个扩散步骤都是有效的,即使在前期迭代步中也能够控制生成过程;更多的迭代次数可以改善图像与文本提示的对齐,并生成更多的细节。
使用mediapipe扩散插件进行生成过程的演示
示例
在这项工作中,研究人员开发了基于扩散的文本到图像生成模型与mediapipe face landmark,mediapipe holistic landmark,深度图和canny边缘的插件。
对于每个任务,从超大规模的图像-文本数据集中选择约10万张图像,并使用相应的mediapipe解决方案计算控制信号,使用pali优化后的描述来对插件进行训练。
face landmark
mediapipe face landmarker任务计算人脸的478个landmark(具有注意力)。
研究人员使用mediapipe中的drawing utils来渲染人脸,包括脸部轮廓、嘴巴、眼睛、眉毛和虹膜,并使用不同的颜色进行表示。
下面这个例子展现了通过调节面网格和提示随机生成的样本;作为对比,controlnet和plugin都可以在给定条件下控制文本到图像的生成。
用于文本到图像生成的face-landmark插件,与controlnet进行比较。
holistic landmark
mediapipe holistic landmark任务包括身体姿势、手和面部网格的landmark,可以通过调节整体特征来生成各种风格化的图像。
用于文本到图像生成的holistic landmark插件。
深度
深度插件的文本到图像生成。
canny edge
用于生成文本到图像的canny-edge插件。
评估
研究人员对face landmark插件进行定量评估以证明该模型的性能,评估数据集包含5000张人类图像,使用的评估指标包括fréchet起始距离(fid)和clip分数。
基础模型使用预训练的文本到图像扩散模型stable diffusion v1.5
fid、clip和推理时间的定量比较
从实验结果中的fid和clip分数来看,controlnet和mediapipe扩散插件生成的样本质量比基础模型好得多。
与controlnet不同,插件模型只需要为每个生成的图像运行一次,不需要在每个去噪步中都运行,所以推理时间只增加了2.6%
研究人员在服务器机器(使用nvidia v100 gpu)和移动端设备(galaxy s23)上测量了三种模型的性能:在服务器上,使用50个扩散步骤运行所有三个模型;在移动端上,使用mediapipe图像生成应用程序运行20个扩散步骤。
与controlnet相比,mediapipe插件在保持样本质量的同时,在推理效率方面表现出明显的优势。
插件在不同移动的设备上的推理时间(ms)
总结
在这项工作中,研究人员提出了mediapipe,一个可在移动端使用的、有条件的文本到图像生成插件,将从条件图像中提取的特征注入扩散模型,从而控制图像的生成过程。
便携式插件可以连接到在服务器或设备上运行的预训练的扩散模型,通过在设备上完全运行文本到图像生成和插件,可以更灵活地应用生成式ai


基于555 IC的PWM控制器电路图
利用手持摄像机图像通过卷积神经网络实时进行水稻检测
针对无铅回流焊接工艺的思考
大数据时代的冷数据该怎么处理
如何维护红外光谱仪?
基于扩散模型的图像生成过程
eco生态币靠什么赚钱_eco生态币如何赚钱
Angew CEI构建实现4.6V和70°C Li||LiCoO2电池
“脸书”面临刑事调查,都是信息分享惹的祸
天津市政协领导莅临飞腾公司调研
最长99周!2022芯片交期再拉长!需求前置、疯狂扩产,供应过剩为时尚早
iphone8什么时候上市?iphone8最新消息:iPhone8草图再次曝光,延期到12月开卖
LM339窗口比较器分析
【了不起的芯片】3D封装:我很能装,只是有点难装
单身经济消费潜力巨大 壁挂洗衣机市场来了
全球硅晶圆市场出现复苏迹象,中国5G业务发展拉动其行业发展
Zendure推出一款容量27000mAh的移动电源 可输出最高138W的功率
微源半导体TWS耳机电源解决方案
除了惊艳还是惊艳,雷军自曝小米mix2开箱图是真的惊艳到了!
SSD主控芯片,除了做SSD还有什么其他用途?