一、DiffMorpher是什么?
DiffMorpher是一项人工智能技术,它利用先进的扩散模型,能够在两张图像之间实现平滑且自然的形变,生成过渡视频。这一技术在图像生成领域展现了突破性的进展,大幅提升了生成视频的质量,使其超越了以往的生成模型。
扩散模型在图像生成质量方面已经取得了令人瞩目的成就,但与生成对抗网络(GAN)相比,扩散模型在进行两个图像样本之间的平滑插值方面存在一些挑战。这是因为扩散模型的潜在空间通常是高度非结构化的,不利于直接进行插值操作。
平滑插值不仅在视觉效果上更为吸引人,而且对于图像形变任务尤为关键。图像形变在多个领域都有广泛的应用,如动画制作、医学成像以及增强现实等。
二、DiffMorpher的网站地址:
1、GIthub仓库:
https://github.com/Kevin-thu/DiffMorpher
2、官网地址:
3、论文地址:
https://arxiv.org/abs/2312.07409
https://arxiv.org/pdf/2312.07409.pdf
4、在线体验:
https://openxlab.org.cn/apps/detail/KaiwenZhang/DiffMorpher
三、DiffMorpher的方法概述:
扩散模型取得了超越以前的生成模型的卓越图像生成质量。然而,与 GAN 相比,扩散模型的一个显着局限性是,由于其高度非结构化的潜在空间,它们难以在两个图像样本之间平滑插值。这种平滑的插值很有趣,因为它自然可以作为许多应用程序的图像变形任务的解决方案。在这项工作中,我们提出了 DiffMorpher,这是第一种使用扩散模型实现平滑、自然图像插值的方法。我们的关键思想是通过分别拟合两个 LoRA 来捕获两个图像的语义,并在 LoRA 参数和潜在噪声之间进行插值,以确保平滑的语义转换,其中对应关系会自动出现,无需注释。此外,我们提出了注意力插值和注入技术、自适应归一化调整方法和新的采样计划,以进一步增强连续图像之间的平滑度。大量实验表明,DiffMorpher 在各种对象类别上实现了比以前的方法明显更好的图像变形效果,弥合了区分扩散模型和 GAN 的关键功能差距。
给定两个图像I 0和I 1,训练两个 LoRA 来分别拟合这两个图像。然后通过 DDIM 反演获得两幅图像的潜在噪声。插值噪声的平均值和标准差通过 AdaIN 进行调整。为了生成中间图像,我们通过插值比α在 LoRA 参数和潜在噪声之间进行插值。此外,文本嵌入以及自注意力模块中的K和V也被替换为相应组件之间的插值。使用α序列和新的采样计划,我们的方法将生成一系列高保真图像,描绘I 0和I 1之间的平滑过渡。
四、DiffMorpher的主要特点:
借助最新的人工智能技术,DiffMorpher 提供从个人故事到全球事件的丰富视觉叙事。
1、多维视觉叙事
从珍贵的个人时刻到重大的历史和政治变化,DiffMorpher 的人工智能技术讲述每个故事,捕捉每个细节。
2、广泛的场景适应性
无论是教育目的、新闻报道、艺术创作还是社会评论,DiffMorpher 都能提供强大的视觉支持。
3、先进的人工智能实现逼真的过渡
利用最新的人工智能技术实现流畅、逼真的图像过渡,让每个故事都栩栩如生。
4、用户友好的创意平台
我们的平台简单直观,让每个人都能轻松创建专业级的视觉故事。
五、如何使用DiffMorpher?
为了让更多用户能够轻松体验这一技术,我们将DiffMorpher打包成了一键启动包。现在,您无需繁琐地配置Python环境,只需简单点击即可启动程序,从而避免了潜在的环境配置问题。
1、下载压缩包,解压到电脑D盘,最好不要有中文路径;
2、解压后点击启动.exe文件即可运行(文件可能会被误杀,请添加为);
3、浏览器访问:http://127.0.0.1:7860/,即可正常使用。