图片生成精准定位软件 (图片生成精准动态视频-港大推出新模型LivePhoto-阿里)

文章编号：2826 更新时间：2024-01-02 分类：互联网资讯 阅读次数：次

阿里巴巴、香港大学、蚂蚁集团的研究人员提出了一种全新图片生成动态视频模型——LivePhoto。用户通过LivePhoto，可将一张静态图片快速生成高精准的动态视频。

与传统方法不同的是，LivePhoto在开源文生图模型StableDiffus ION基础之上，增加了运动强度和文本加权两大创新模块 图片生成精准定位软件图片生成精准动态视频，可精准掌控动态视频生成过程中的运动强度、文本描述。

研究人员将LivePhoto与主流模型Gen-2、PikaLabs进行了比较，经过多轮测试效果非常卓越。

本文地址:HTTPs://arxiv.org/abs/2312.02928

从本文来看，LivePhoto模型主要由三大模块组成:首先是图像内容控制模块，通过多种策略提供强大的像素级和语义级图像指导，从而确保生成序列中每一帧的视觉内容与原图保持高度一致。

其次是运动建模模块，基于知名开源模型StableDiffusion，仅训练插入的特定组件来捕捉帧间隐含的运动模式。

第三个是额外控制指令模块，是一种运动强度估计和文本重新加权的方法，可有效减少文本到运动映射中的歧义，使得所生成的图像动画视频更好地遵循文本指令描述。

图像内容控制

为了实现生成内容与参考图像保持一致，LivePhoto使用了三种图像指导方法:1）参考潜在表示拼接通过VAE编码器提取参考图像的潜在表示，并直接拼接到模型输入中，实现像素级指导。

2）内容编码器，使用了预训练的DINOv2网络提取参考图像的图像块表示，并通过新增的交叉注意力层注入到UNet网络中，提供全局内容约束。

3）先验反向映，在推理阶段，将参考潜在表示的反向射混合到高斯噪声中，为细节生成提供先验知识。

此外，LivePhoto冻结了StableDiffusion模型的部分功能，仅训练插入了其中的可学习运动模块，用来构建不同帧间的运动联系。相当于每个UNet组件中插入了一个运动模块，采用了类似AnimateDiff的结构。

额外指令

通过图像内容控制和运动模块，基本可以勾勒出大致的运动视频内容。但仍然无法精准控制运动方式，这是因为文本中同时包含内容和运动两个方面的描述，而参考图像起主导作用，容易造成内容描述对运动描述的抑制。

为解决这一问题，开发人员提出了两种额外的指令:

1）运动强度，考虑到文本指令本身很难准确表达运动特征，LivePhoto引入了一个1-10的值来参数化运动强度。这一超参数既可于训练时促进文本与运动的匹配，也为用户提供了方便的推理调节接口。

2）文本加权，为区分文本中与内容和运动相关的部分，LivePhoto设计了文本加权功能。

其目标是检测文本中与运动相关的维度，并对其进行加权放大。这可以减少内容描述带来的干扰，从而增强运动控制能力。

实验结果也证明，在运动强度指导和文本加权的帮助下，LivePhoto展现出了十分出色的零样本视频动画生成性能。

可以处理各种图像输入，同时遵循文本中对运动的描述生成视频。例如，不同的人或动物正在进行的动作，或者虚拟出文本所描写的场景。

此外，用户还可以通过简单调节运动强度的数值，自由定制视频中运动的方式。

（举报）

标签：大模型、

上一篇：冬至大如年人间小团圆愿你冬至有汤圆有饺子...
下一篇：2023年十二月黄道吉日2023年十大流行语公布...