图源备注:图片由AI生成,授权服务商Midjourney
文生视频领域又卷起来了!
文生视频可以精细到什么程度?最近,巴巴的一项研究给出了答案:1280×720分辨率没有压力,而且生成效果非常连贯。
这些demo来自阿里联合浙江大学、华中科技大学提出的文生视频模型I2VGen-XL,该模型能够生成各种类别的高质量视频,如艺术画、人像、动物、科幻图等。生成的视频具有高清、高分辨率、平滑、美观等优点,适合广泛的视频内容创作任务。在与Gen2、生成效果对比上,I2VGen-XL生成的视频动作更加丰富,主要表现在更真实、更多样的动作,而Gen-2和Pika生成的视频似乎更接近静态。
除了生成效果,这项工作更令人印象深刻的一点是研究人员在数据上下的工夫。为了提高生成效果的多样性,研究人员收集了大约3500万单镜头文本-视频对和60亿文本-图像对来优化模型,这是一个非常庞大的数据集,其后续潜力令人期待。
本文细节
该研究表示得益于扩散模型的快速发展,视频合成最近取得了显著的进步。然而,它在语义的准确性、清晰度和时空连续性方面仍然面临挑战。
出现这种状况的原因一方面是由于缺乏良好的经过对齐的文本-视频数据,另一方面在于视频本身复杂的内在结构,使得模型难以同时保证语义和质量的卓越性。
为了解决上述问题,研究者受到SDXL方法的启发,提出了一种级联的I2VGen-XL方法,其能够生成具有连贯空间和运动动态化以及细节连续的高清视频。
I2VGen-XL旨在从静态图像生成高质量视频。因此,它需要实现两个关键目标:语义一致性,即准确预测图像中的意图,然后在保持输入图像的内容和结构的同时生成精确的运动;高时空一致性和清晰度,这是视频的基本属性,对于确保视频创作应用的潜力至关重要。为此,I2VGenXL通过由两个阶段组成的级联策略分解这两个目标:基础阶段和改进阶段。
具体而言:
基础阶段。基于VLDM,本文设计的阶段是低分辨率(即448×256),主要侧重于在输入图像上结合多级特征提取,包括语义和低级细节学习。
改进阶段。经过基础阶段可以获得具有多样化且语义准确的运动的低分辨率视频。然而,这些视频可能会遇到各种问题,例如噪声、时间和空间抖动以及变形。因此,改进模型有两个主要目标:i)增强视频分辨率,将其从448×256增加到1280×720或更高;ii)提高视频的时空连续性和清晰度,解决时间和空间上的伪影问题。
为了提高视频质量,该研究训练了一个单独的VLDM,专门处理高质量、高分辨率数据,并对阶段生成的视频采用SDEdit引入的噪声去噪过程。
该研究还使用CLIP对文本进行编码,并通过交叉注意力将其嵌入到3DUNet中。基于基础阶段的预训练模型,研究者使用精心挑选的高质量视频训练高分辨率模型,所有视频的分辨率都大于1280×720。
此外,该研究还收集了3500万个高质量single-shot视频和60亿张图像,以达到增强I2VGen-XL多样性和稳健性的目的。
最后,广泛的实验评估结果表明I2VGen-XL可以同时增强生成视频的语义准确性、细节的连续性和清晰度。此外,该研究还将I2VGenXL与当前的方法进行了比较,结果都表明I2VGenXL在各种数据上的有效性。
实验结果
与Gen2和Pika的比较结果
为了证明新方法的有效性,研究者将I2VGen-XL的性能与Gen-2和Pika进行了比较,二者被公认为是目前文生视频领域进的方法。如图4所示,作者使用这两种方法的网页界面生成了三种类型图像的视频,包括虚拟、写实和抽象绘画。
从这些结果中可以得出以下个结论:i)动作的丰富性:I2VGen-XL的结果显示出更真实、更多样的动作,例如最上方的例子。相比之下,Gen-2和Pika生成的视频似乎更接近静态,这表明I2VGen-XL实现了更丰富的运动;ii)ID保留程度:从这三个样本中可以看出,Gen-2
标签: AI文生视频、 阿里、 Pika、本文地址: https://yihaiquanyi.com/article/b78cb01cf940f21acba8.html
上一篇:英国法院裁定印度必须归还中企50亿欠款英国...