一、PhotoMaker是什么?
PhotoMaker 是一款强大的图像合成工具,它能够通过分析多张照片中的人物特征,创造出全新的个性化人物图像。不仅如此,PhotoMaker 还能够根据用户的描述生成符合要求的人物照片,或者将多个人物的特征混合,创造出独特的形象。此外,该工具能够调整人物在照片中的性别、年龄,并且能够生成多种不同风格的图像。
二、PhotoMaker的网页地址
1、GIthub仓库:
https://github.com/TencentARC/PhotoMaker
2、在线体验:
- https://huggingface.co/spaces/TencentARC/PhotoMaker
- https://replicate.com/tencentarc/photomaker
- https://replicate.com/tencentarc/photomaker-style
3、项目地址:
https://photo-maker.github.io/
三、PhotoMaker的主要特点🌠:
- 几秒钟内快速定制,无需额外的 LoRA 培训。
- 确保令人印象深刻的 ID 保真度、提供多样性、有前途的文本可控性和高质量的生成。
- 可以作为适配器与社区中的其他基础模型以及 LoRA 模块进行协作。
四、PhotoMaker的实现机制:
PhotoMaker是一种高效的个性化文本到图像的生成方法,它主要是将任意数量的输入ID图像编码到堆叠的ID embedding中,以保留ID信息。这样的embedding作为一个统一的ID表示,既可以全面封装同一输入ID的特征,又可以容纳不同ID的特征,便于后续集成。这为更有趣和更有实际价值的应用铺平了道路。此外,为了推动PhotoMaker的训练,提出了一个面向ID的数据构建管道来组装训练数据。在通过该管道构建的数据集的滋养下,PhotoMaker显示出比基于测试时微调的方法更好的ID保存能力,同时提供了显著的速度提升,高质量的生成结果,强大的泛化能力和广泛的应用范围。
实现机制
将几个相同身份的输入图像转换为堆叠的IDembedding。这种嵌入可以看作是要生成的ID的统一表示。在推理阶段,构成堆叠ID embedding的图像可以来自不同的ID。然后可以在不同的上下文中合成定制的ID。
首先分别从文本编码器和图像编码器中获得文本embedding 和图像embedding 。然后,我们通过合并相应的类embedding(如男人和女人)和每个图像embedding来提取融合embedding。接下来,我们沿着长度维度将所有融合embedding连接起来,形成堆叠IDembedding。最后,我们将堆叠的IDembedding馈送到所有cross-attention layers,以自适应地合并扩散模型中的ID内容。需要注意的是,虽然我们在训练过程中使用的是相同ID的图像,但是背景被遮挡了,但是我们可以在推理过程中直接输入不同ID的图像,不需要背景失真,从而创建一个新的ID。
五、PhotoMaker的主要功能:
1、逼真的人物照片
2、照片风格化
3、调整照片姿势/环境
4、将老照片中的人物带入现实
5、风格化
6、改变人物年龄或性别
7、换脸
六、PhotoMaker如何使用?
为了让更多用户能够轻松体验这一技术,我们将PhotoMaker打包成了一键启动包。现在,您无需繁琐地配置Python环境,只需简单点击即可启动程序,从而避免了潜在的环境配置问题。
1、下载压缩包,解压到电脑D盘,最好不要有中文路径;
2、解压后点击 启动.exe 文件即可运行(文件可能会被误杀,请添加为信任);
3、浏览器将自动访问:http://127.0.0.1:7860/,即可正常使用。
七、PhotoMaker的使用体验:
第一步、上传图片
上传你想定制的人的图片。一张图片是可以的,但越多越好。虽然我们没有进行人脸检测,但是上传图像中的人脸应该占据了图像的大部分。
这里我上传2张星爷的照片
第二步、提示词的编写
输入文本提示词,确保定制的类别词后面使用触发词img,例如:man img或woman img或girl img。
第三步、样式模板的选择
目前提供了10种样式的选择,这里我们不选择样式,使用默认样式Photographic
第四步、图片的生成
点击"Submit"按钮,生成图片。
图片生成了,提示词中描述的人物动作是有的,但是生成的人物和周星驰人脸还是有区别。看来2张照片获取人脸还是不特别准确。
PhotoMaker如何使用?
(1)在"Submit"按钮的下方,有一个高级选项的区域,主要用于对图片生成进行高级设置。各个参数的含义和平时使用的SD Web UI差不多。
(2)如果生成的人物和原图片不太像,可以上传更多张要定制的人的照片,以提高身份保真度。如果输入的是亚洲面孔,也许可以考虑在类词前加上“Asian”,例如,Asian woman img。
(3)在进行图片风格化时,生成的脸看起来是否过于逼真?尝试切换到我们的其他渐变演示PhotoMaker-Style。将Style强度调整为30-50,数值越大,ID保真度越低,但风格化能力会越好。
(4)为了获取生成图片更快的速度,可以减少生成图像的数量和采样迭代步数。但是,注意减少采样迭代步数可能会损害ID保真度。
(5)与其他方法相比,PhotoMaker可以同时满足高质量和多样化的生成能力,具有良好的可编辑性,高推断效率和强ID保真度。