香港大学最新提出!实现超现实的人类图像生成:HyperHuman

1、导读
尽管大规模文本到图像模型取得了重大进展,但实现超现实的人类图像生成仍然是一项理想但尚未解决的任务。现有模型(例如稳定扩散和dall·e2)往往会生成部分不连贯或姿势不自然的人体图像。为了应对这些挑战,我们的主要见解是,人类图像本质上具有多个粒度的结构,从粗粒度的身体骨骼到细粒度的空间几何。因此,在一个模型中捕获显式外观和潜在结构之间的这种相关性对于生成连贯且自然的人类图像至关重要。为此,我们提出了一个统一的框架hyperhuman,它可以生成高度真实和多样化布局的野外人类图像。具体来说:
我们首先构建一个以人类为中心的大规模数据集,名为humanverse,它由3.4亿张图像组成,具有人体姿势、深度和表面法线等全面注释。
接下来,我们提出了一种潜在结构扩散模型,该模型可以同时对深度和表面法线以及合成的 rgb 图像进行去噪。我们的模型在统一网络中强制执行图像外观、空间关系和几何形状的联合学习,其中模型中的每个分支在结构意识和纹理丰富性方面相互补充。
最后,为了进一步提高视觉质量,我们提出了一种结构引导细化器来组合预测条件,以更详细地生成更高分辨率。大量的实验表明,我们的框架具有最先进的性能,可以在不同的场景下生成超逼真的人类图像。
2、介绍
所提出的hyperhuman同时生成以文本和骨架为条件的粗略 rgb、深度、法线和高分辨率图像。可以创建逼真的图像和风格化的渲染。
我们与最近的t2i模型进行比较,显示出更好的真实性、质量、多样性和可控性。请注意,在每个2x2网格(左)中,左上角是输入骨架,而其他部分是联合去噪的法线、深度和512x512的粗略 rgb。对于完整模型,我们合成的图像高达 1024x1024(右)
3、方法
在潜在结构扩散模型(紫色)中,图像x、深度d和表面法线n对标题c和姿势骨架p进行联合去噪调节。在结构引导精炼器(蓝色)中,我们构建了更高分辨率生成的预测条件。请注意,灰色图像是指随机丢弃条件,以实现更稳健的训练。
4、实验
ms-coco 2014 验证人类的零样本评估
我们将我们的模型与最近的 sota 通用 t2i 模型(stable diffusion v1.5、v2.0、v2.1;sdxl;deepfloyd-if)和可控方法(controlnet;t2i-adapter;humansd)进行比较。请注意,sdxl 生成 512x512 的艺术风格,而 if 仅创建固定大小的图像,我们首先生成 1024x1024 结果,然后针对这两种方法将大小调整回 512x512。
ms-coco 2014 验证人类子集的评估曲线
我们展示了所有方法的fid-clip(左)和fid clip -clip(右曲线,cfg比例范围为4.0至20.0。
用户偏好比较
我们报告了用户更喜欢我们的模型而不是基线的比率
5、结论
我们提出了一种新颖的框架hyperhuman来生成高质量的野外人体图像。为了在统一网络中加强图像外观、空间关系和几何形状的联合学习,我们提出了潜在结构扩散模型,该模型可同时对深度和法线以及rgb进行去噪。然后我们设计了结构引导优化器来构建详细生成的预测条件。大量的实验证明我们的框架具有卓越的性能,可以在不同的场景下生成逼真的人类。

影响钻孔的孔位精度与孔壁品质的主要因素
Sub-G频段中,433M与LoRA有哪些差异?
利用工业数据采集平台实现PLC远程监控和故障报警
黑芝麻智能与亿咖通科技签署战略合作协议助力智能驾驶量产落地
关于NFCLink的特点及应用介绍
香港大学最新提出!实现超现实的人类图像生成:HyperHuman
BridgeSwitch电机驱动器从不同方向解决问题
有轨运输电机车无人驾驶系统进一步实现人、机、物全面连接
模块电源有哪些基本分类
最简单的滤波电路图大全(八款最简单的滤波电路设计原理图详解)
萤石发布DL20VS智能视频指纹锁 一握即开 远程可视
市场红利窗口期较长,市场需求与内部因素驱动共享充电宝行业快速发展
柴油滤清器液位开关的简单说明
揭开煲耳机的科学依据,决定音质的好与坏在哪里?
东芝与两家公司达成合作,共同研发量子秘钥分发技术
SAR解决方案出台 助力解决无线射频曝露难题
2019《区块链技术赋能实体经济峰会》在泉州召开,MXC抹茶商学院参与主办
互联网经济快速更迭 传统行业企业面临重重挑战
松下电器6套方案,助力制造行业”现场流程革新”
DARPA与英特尔合作研发机器学习“免疫系统”