一、什么是InstantID?
InstantID 是一项创新的 AI 技术,它可以在短短几秒钟内,使用单张人脸照片生成具有不同风格的全套写真,同时保持人物的面貌特征。这项技术的出现,与传统的多图参考和繁琐调整过程形成鲜明对比,InstantID 的高效和简便性使其成为了一种新兴的图像生成解决方案。
二、InstantID的网页地址:
1、项目地址:
2、Github仓库:
https://github.com/InstantID/InstantID
3、论文地址:
https://arxiv.org/abs/2401.07519
4、在线体验:
- https://huggingface.co/spaces/InstantX/InstantID
- https://modelscope.cn/studios/instantx/InstantID/summary
- https://openxlab.org.cn/apps/detail/InstantX/InstantID
三、InstantID的模型概述:
通过 Textual Inversion、DreamBooth 和 LoRA 等方法,个性化图像合成取得了重大进展。然而,它们在现实世界中的适用性受到高存储需求、冗长的微调过程以及对多个参考图像的需求的阻碍。相反,现有的基于 ID 嵌入的方法虽然只需要一次前向推理,但也面临着挑战:它们要么需要对众多模型参数进行广泛的微调,要么缺乏与社区预训练模型的兼容性,要么无法保持高面部保真度。为了解决这些限制,我们引入了InstantID,这是一种强大的基于扩散模型的解决方案。我们的即插即用模块仅使用单个面部图像就能熟练地处理各种风格的图像个性化,同时确保高保真度。为了实现这一目标,我们设计了一个新颖的 IdentityNet,通过强加语义和弱空间条件,将面部和地标图像与文本提示相结合来引导图像生成。 InstantID 展示了卓越的性能和效率,在身份保存至关重要的现实应用中非常有用。此外,我们的工作与流行的预训练文本到图像扩散模型(如 SD1.5 和 SDXL)无缝集成,作为一个适应性强的插件。我们的代码和预先训练的检查点将在此 URL上提供。
仅给定一张参考 ID 图像,InstantID 的目标是从单个参考 ID 图像生成具有各种姿势或风格的定制图像,同时确保高保真度。下图概述了我们的方法。它包含三个关键组成部分:(1)捕获鲁棒语义人脸信息的 ID 嵌入; (2)具有解耦交叉注意力的轻量级适配模块,方便使用图像作为视觉提示; (3) IdentityNet,通过额外的空间控制对参考面部图像的详细特征进行编码。
我们与之前的工作有以下几个方面的不同:(1)我们不训练UNet,因此可以保留原始文本到图像模型的生成能力,并兼容社区中现有的预训练模型和ControlNet ; (2)我们不需要测试时调整,因此对于特定字符,不需要收集多张图像进行微调,只需要对单个图像进行一次推断; (3)我们实现了更好的面部保真度,并保留了文本的可编辑性。
让你的脸变成任何风格
InstantID 支持风格化和现实风格。滚动查看更多示例。
可编辑性和多重参考
演示 InstantID 的稳健性、可编辑性和兼容性。第 1 列显示仅图像结果,其中在推理过程中提示设置为空。第 2-4 列通过文本提示显示可编辑性。第 5-9 列显示了与现有 ControlNet 的兼容性(canny 和深度)。
参考图像数量的影响。对于多个参考图像,我们取 ID 嵌入的平均平均值作为图像提示。即使只有一张参考图像,InstantID 也能取得良好的结果。
四、InstantID和其他同类模型对比:
与现有的免调优最先进技术的比较。具体来说,我们与 IP-Adapter (IPA)、IP-Adapter-FaceID 和最新的 PhotoMaker 进行比较。其中,PhotoMaker需要训练UNet的LoRA参数。可以看到,PhotoMaker和IP-Adapter-FaceID都实现了良好的保真度,但文本控制能力有明显的退化。相比之下,InstantID 实现了更好的保真度并保留了良好的文本可编辑性(面孔和样式更好地融合)。
五、InstantID的风格插值
六、InstantID更新日志:
- [2024/02/01] 🔥 我们在Huggingface Spaces 演示中支持了 LCM 加速和 Multi-ControlNets !我们的深度估计器由Depth-Anything支持。
- [2024/01/31] 🔥 OneDiff现在支持 InstantID 加速推理,详情请查看!
- [2024/01/23] 🔥 我们的管道已合并为扩散器!
- [2024/01/22] 🔥 我们发布了预训练的检查点、推理代码和渐变演示!
- [2024/01/15] 🔥 我们发布技术报告。
- [2023/12/11] 🔥 我们启动了项目页面。
七、InstantID的核心优势:
- 高保真度个性化图像生成:InstantID 能够使用单张参考图像,生成高质量、保持个人特征的图像,适用于多种风格。
- 操作流程简化:相比需要多张参考图像和复杂的微调,InstantID 只需一张图像,无需复杂的训练或微调,即可快速生成图像。
- 强大的兼容性:InstantID 能够无缝集成当前社区中流行的预训练文本到图像模型(如 SD1.5 和 SDXL),作为一个高通用性的插件。
- 面部保真度与文本编辑性:在保持面部特征真实性和提供文本编辑能力方面,InstantID 的表现优于其他技术。用户可以通过文本提示编辑生成的图像,如改变人物表情、背景等元素,实现高度个性化的定制。
- 多样化应用场景:支持风格化和写实的图像生成,满足不同的视觉需求。
- 实用性与效率并重:在数字艺术创作和个性化媒体内容制作等需要快速生成并保持个人特征图像的应用场景中,InstantID 展现了卓越的性能和高效率。
- 多重参考支持:除了单张图像,InstantID 也支持使用多张参考图像来创造新图像,结合不同图像特征或风格,丰富和多样化生成图像。
八、如何使用InstantID?
为了让更多用户能够轻松体验这一技术,我们将InstantID打包成了一键启动包。现在,您无需繁琐地配置Python环境,只需简单点击即可启动程序,从而避免了潜在的环境配置问题。
1、下载压缩包,解压到电脑D盘,最好不要有中文路径;
2、解压后点击 启动.exe 文件即可运行;
3、等待程序启动。