AnyDoor的命名灵感来源于其功能与神奇的“任意门”相似,能够实现物体的即时移动。
一、AnyDoor是什么?
AnyDoor 是一款创新的AI工具,能够将任何对象(如人物、动物或物品)无缝集成到新的图像或视频场景中。这款扩散的图像生成器,借助先进的算法,实现了在用户指定的位置,以自然和谐的方式将目标对象“传送”到新的场景中,自动调整光线和角度以适应新环境。
由阿里巴巴与香港大学共同研发的这款AI技术,实现了无需样本训练的图像嵌入功能,极大地拓展了图像处理的边界。例如,在线购物时,消费者可以直接在模型上看到衣物的效果,提升购物体验。
二、AnyDoor的网页地址:
1、GIthub仓库:
https://github.com/ali-vilab/AnyDoor
2、论文地址:
https://arxiv.org/abs/2307.09481
3、项目地址:
https://ali-vilab.github.io/AnyDoor-Page/
4、在线试用:
- https://huggingface.co/spaces/xichenhku/AnyDoor-online
- https://modelscope.cn/studios/iic/AnyDoor-online/summary(即将到来)
- https://replicate.com/ali-vilab/anydoor
三、AnyDoor任意门的模型概述:
这项工作提出了AnyDoor,一种基于扩散的图像生成器,能够以和谐的方式将目标对象传送到用户指定位置的新场景。我们的模型无需调整每个对象的参数,只需训练一次,即可在推理阶段轻松推广到不同的对象场景组合。这种具有挑战性的零样本设置需要对某个对象进行充分的表征。为此,我们用细节特征来补充常用的身份特征,这些细节特征经过精心设计,以保持纹理细节,同时允许多种局部变化(例如,照明、方向、姿势等),支持对象与不同环境的良好融合。我们进一步建议借用视频数据集的知识,在视频数据集中我们可以观察单个对象的各种形式(即沿时间轴),从而获得更强的模型通用性和鲁棒性。大量的实验证明了我们的方法相对于现有替代方案的优越性,以及它在现实应用中的巨大潜力,例如虚拟试穿和物体移动。
四、AnyDoor的功能特点:
1、零样本学习
不需要预先的样本训练,即可实现物体的无缝嵌入。
2、多物体传送
AnyDoor支持同时传送多个物体到新场景。
3、图像内物品移动
用户还可以在图像内移动已有的物品,增加了编辑的灵活性。
五、如何使用AnyDoor?
为了让更多用户能够轻松体验这一技术,我们将AnyDoor打包成了一键启动包。现在,您无需繁琐地配置Python环境,只需简单点击即可启动程序,从而避免了潜在的环境配置问题。
- 下载压缩包,解压到电脑D盘,最好不要有中文路径;
- 解压后点击启动.bat文件即可运行(文件可能会被误杀,请添加为信任);
- 浏览器访问:http://127.0.0.1:7860/,即可正常使用。