站长之家(ChinaZ.com)12月8日信息: 最近,视频编辑畛域迎来了人工智能的清楚停顿,其中以Diffusion-based技术为代表。该技术应用预训练的文本到图像/视频分散模型启动样式更改、背景交流等义务。但是,在视频编辑中,将源视频的静止转移到编辑后的视频,尤其是确保整个环节中的期间分歧性是一个具有应战性的局部。
大少数视频编辑工具并重于经过确保期间分歧性和举措对齐来坚持视频的结构。但是,在处置视频中的状态变动时,这一环节变得有效。为了处置这一疑问,新加坡国立大学的ShowLab和Meta的GenAI钻研人员引入了VideoSwap框架,该框架经常使用语义点对应而非密集对应,以对齐主体的静止轨迹并扭转其状态。
经常使用密集对应可以成功更好的期间分歧性,但限度了编辑视频中主体状态的变动。虽然经常使用语义点对应是一种灵敏的方法,但在不同的开明环球设置中变动较大,这使得难以训练一个通用的条件模型。
钻研人员尝试仅经常使用有限数量的源视频帧来学习语义点控制,他们发如今源视频帧上优化的点可以对齐主体的静止轨迹并扭转主体的状态。
此外,优化后的语义点还可以在语义和低级别变动之间启动转移。这些观察结果为在视频编辑中经常使用语义点对应提供了依据。
钻研人员设计了该框架的模式如下:他们将静止层集成到图像分散模型中,以确保期间分歧性。他们还在源视频中识别了语义点,并应用这些点来传递静止轨迹。该方法仅关注语义对齐,从而防止适度学习低级别细节,从而增强语义点对齐。此外,VideoSwap还具有用户点交互,例如删除或拖动点以启动多个语义点对应。
交流效果
钻研人员经常使用潜在分散模型实施了该框架,并驳回AnimateDiff中的静止层作为基础模型。他们发现,与先前的视频编辑方法相比,VideoSwap在同时对齐源静止轨迹、保管目的概念身份的同时成功了清楚的状态变动。钻研人员还经过人工评价验证了他们的结果,结果清楚地显示,VideoSwap在主体身份、举措对齐和期间分歧性等目的上优于其余比拟方法。
VideoSwap是一个多才多艺的框架,即使触及复杂状态的视频编辑也能游刃缺乏。它在环节中限度了人的干预,并经常使用语义点对应成功更好的视频主体交流。该方法不只准许在同时扭转状态的同时将静止轨迹与源对象对齐,而且在多个目的上优于先前的方法,展现了在定制视频主体交流方面的成绩。
文章网址:https://arxiv.org/pdf/2312.02087.pdf
名目网址:https://videoswap.github.io/
(揭发)
标签: VideoSwap、 AI头条、 视频编辑模型、本文地址: https://yihaiquanyi.com/article/c66e0dc5ae484c7bd51b.html
上一篇:蔚来接手安凯蔚来接手4577亿元江淮汽车转让...