北京大学近日发布了一项全新的视频风格转换工具——FRESCO。这一工具旨在简化视频转视频的处理流程,使之更加便捷、高效。FRESCO支持将视频转换为多种不同的风格,并且独特之处在于,它可以选择性地转换视频中特定的部分。值得一提的是,该项目的代码已经开源,供广大研究人员和爱好者使用和探索。
一、FRESCO是什么?
FRESCO在设计时考虑了帧间对应关系,并引入了帧内对应概念,从而构建了一个更加稳定的时空约束机制。这一改进显著提高了视频中跨帧语义内容的连贯性,使得视频在视觉上更加连贯一致。我们的方法不仅提升了注意力机制的作用,同时还包括了特征的显式更新,这进一步确保了结果视频在时空两个维度上的一致性。
二、FRESCO的网站地址:
1、Github开源地址:
https://github.com/williamyang1991/FRESCO
2、项目地址:
https://www.mmlab-ntu.com/project/fresco/
3、论文地址:
https://arxiv.org/abs/2403.12962
三、FRESCO的特征亮点:
- 时间一致性:使用帧内和帧间约束,比单独的光流具有更好的一致性和覆盖范围。
- 与我们之前的工作Reender-A-Video相比,FRESCO 对于大而快速的运动更加鲁棒。
- 零样本:无需培训或微调。
- 灵活性:与现成模型(例如ControlNet、LoRA)兼容以进行定制翻译。
四、FRESCO的技术分析:
我们提出了 FRamE 时空对应(FRESCO)。虽然以前的方法主要关注于约束帧间时间对应关系,但我们认为保留帧内空间对应关系同样重要。我们的方法确保语义相似的内容得到一致的处理,从而在翻译后保持其相似性。该策略增强了操作过程中光流的一致性,以防止不一致的引导。此外,对于光流不可用的区域,原始框架内的空间对应可以作为调节机制。
我们的适应重点是将输入帧I的空间和时间对应关系合并到 U-Net 中。更具体地说,我们将I的时间和空间对应关系定义为:
- 时间对应:这种帧间对应是通过相邻帧之间的光流来测量的,这是保持时间一致性的关键元素。我们的目标是确保视频在操作前后在非遮挡区域共享相同的光流。
- 空间对应:这种帧内对应是通过单个帧内像素之间的自相似性来衡量的。目的是使被操纵的帧与原始帧共享自相似性,即,语义相似的内容被转换为相似的外观,反之亦然。
我们的适应重点是 U-Net 中解码器层的输入特征和注意力模块:
- 特征适应:我们提出了一种新颖的 FRESCO 感知特征优化方法。我们设计了空间一致性损失和时间一致性损失来直接优化解码器层特征,以增强它们与输入帧的时间和空间一致性。
- 注意力适应:我们用 FRESCO 引导的注意力取代自我注意力,由三个组成部分组成。空间引导注意力首先根据输入帧的自相似性聚合特征。然后,使用跨帧注意力来聚合所有帧的特征。最后,时间引导的注意力沿着相同的光流聚合特征,以进一步增强时间一致性。
五、FRESCO的案例展示:
六、如何使用FRESCO?
为了让更多用户能够轻松体验这一技术,我们将FRESCO打包成了一键启动包。现在,您无需繁琐地配置Python环境,只需简单点击即可启动程序,从而避免了潜在的环境配置问题。
操作系统:Windows 10/11 64位,显卡:至少16GB显存的NVIDIA显卡。
- 下载压缩包,解压到电脑D盘,最好不要有中文路径;
- 解压后点击 启动.bat 文件即可运行;
- 浏览器访问:http://192.168.0.25:7860/,即可免费使用FRESCO。