Stability AI文本到图像模型套件迎来了新的发展里程碑

即使公众对创始人产生了诸多质疑，但不影响 stability ai 在文本生成图像领域的持续推进。
日前，stability ai 发布了 sdxl 0.9，这是其 stable diffusion 文本到图像模型的最新版本，代表 stability ai 文本到图像模型套件迎来了新的发展里程碑。
继今年 4 月成功发布 stable diffusion xl beta 之后，sdxl 0.9 在图像和构图细节方面继续做出大幅突破。sdxl 0.9 是一款强大的工具，可用于在各种创意产业中创建高度逼真的图像。与之前的版本相比，此更新的模型对生成图像的质量和细节带来了重大改进。
sdxl 0.9 有哪些重大升级？
现在用户已可通过 clipdrop 访问该模型，api 也将在不久后推出。研究人员正在努力完善 1.0 版本，相关成果包括权重设置预计将在七月中旬与大家见面。
sdxl 0.9 在继续保持通过现代消费级 gpu 运行的能力之外，在生成 ai 图像的创意用例方面也实现了飞跃。sdxl 能够为影视剧、音乐和教学视频生成超现实风格的创作结果，也具备在设计和工业用途中一展身手的水平。
示例：
在 sdxl beta（左）和 0.9 版本上以相同提示词进行测试，即可体现该模型在短短两个月内取得的重大进展。
提示词: 美学外星人拉在拉斯维加斯的人群中，粗砺的胶片摄影
(左图 - sdxl beta, 右图 - sdxl 0.9)
提示词: 优胜美地国家公园的狼，冷冽的自然纪实胶片摄影
（左图 - sdxl beta, 右图 - sdxl 0.9）
sdxl 系列还提供一系列超出基础文本提示的功能。其中包括图像到图像提示（输入一张图像，以获取该图像的更多变体）、填充（重建图像内的缺失部分）和外延（根据现有图像无缝向外扩展）。简单来说，它可以让用户更有创意，以更高级有趣的方式对图像进行更改。
sdxl 0.9 背后的力量
那么，sdxl 0.9 的底层技术到底是怎样的？
据 stability ai 介绍，sdxl 0.9 之所以取得重大进展，核心驱动因素在于参数数量（模型训练时神经网络中所有权重和偏差的总和）较 beta 版本有了显著增加。
sdxl 0.9 是目前所有开源图像模型中参数量最大的模型之一，基础模型拥有 35 亿参数，模型集成管线拥有 66 亿参数（最终输出由两套模型的运行聚合结果创建而成）。管线的第二阶段模型，专门用于向第一阶段模型生成的输出添加更多精巧细节。
相比之下，之前的 beta 版权拥有 31 亿参数并使用单一模型。
sdxl 0.9 运行在两个 clip 模型之上，其中包括迄今为止训练的最大 openclip 模型之一 openclip vit-g/14。它增强了 sdxl 0.9 的处理能力，使其能够创建出更具深度和 1024 x 1024 更高分辨率的逼真图像。
sdxl 团队将很快发布一篇研究博客，详细介绍该模型的规格和测试情况。
尽管具有强大的输出和更先进的模型架构，但 sdxl 0.9 仍能够在现代消费级 gpu 上运行。具体配置要求为：
windows 10 或 11/linux 操作系统；
16 gb 内存、英伟达 geforce rtx 20 系列显卡（或更高版本）且至少配备 8 gb 显存；
linux 用户也可以使用配备 16 gb 显存的 amd 兼容显卡。
测试版发布期间获得积极反响
stability ai 因于 2022 年 8 月推出开源图像生成器 stable diffusion 而闻名，进一步加剧了其与 openai 的 dall-e 和 midjourney 的竞争。
近日，stability ai 刚被《时代》周刊评为 2023 年最具影响力的公司之一。其他出现在榜单上的人工智能公司还有 openai（chatgpt）、hugging face（协作开源人工智能平台）、runway ai（生成视频）、nvidia 和谷歌 deepmind。
自 4 月 13 日 sdxl beta 版发布以来，stability ai 在 discord 社区上收到近 7000 名用户的热烈响应。用户们生成了超过 70 万张图像，平均每天超过 2 万张。超过 5.4 万张图像进入 discord 社区的“showdowns”评选，最终有 3521 张 sdxl 图像被评为优秀作品。
可用性和未来计划
sdxl 0.9 现已在 clipdrop by stability ai 平台上发布。stability ai api 及 dreamstudio 客户端将于 6 月 26 日星期一开放该模型，同时提供 nightcafe 等其他领先的图像生成工具。
sdxl 0.9 目前暂时仅供研究学习目的使用，希望在全面发布前收集反馈并充分完善模型。相关代码后续将在 github（https://github.com/stability-ai/generative-models）上公开。
如果研究人员希望访问这些模型，请通过以下链接申请：
sdxl-0.9-base 模型：https://huggingface.co/stabilityai/stable-diffusion-xl-base-0.9
sdxl-0.9-refiner：https://huggingface.co/stabilityai/stable-diffusion-xl-refiner-0.9
stability ai 一再强调，目前 sdxl 0.9 仅用于研究学习目的。
sdxl 1.0 计划在今年七月中旬（时间选定）全面发布。sdxl 0.9 遵循非商用、仅供研究的许可证发布，并受相关使用条款的约束。

苹果下调2018年Q4业绩预期，库克称iPhone销售低于预期
亚马逊公布最新Echo智能音箱承诺将购买者所支付价格部分捐给慈善机构
来聊聊可达5011亿美元规模的可穿戴支付
新能源汽车核心三电系统之电机技术分析
PolygonRNN++自动标注使用CNN提取图像特征
Stability AI文本到图像模型套件迎来了新的发展里程碑
在FPC上开展SMD贴片的方案
如何推动全光网技术的发展
关于地物光谱仪的设计优点
电气继电器构造电路类型配置和输入/输出接口系统
小米12搭载什么处理器_小米12的处理器是多少
贸易摩擦促使中国加速5G进程，5G将带动优质上市公司快速成长
5G时代促进多产业融合_折叠手机令人瞩目
运算放大器比较器和电路电压反相方程摘要
详解电流互感器的工作原理及误差
半导体教父张忠谋的退休生活：出书、演讲，只想帮年轻人更多
博通预计2018年第四季度的无线零部件业务营收将迎来环比25%的上涨
能源电力及工业互联网技术企业云涌科技发布2022第一季度报告
安捷伦信号发生器的使用方法
中国联通发布2020 年 5G SA 新建工程无线主设备—— ASIC 芯片