CogVideoX FUN v1.1 Report

在CogVideoX-FUN v1.1中，我们在之前的数据集中再次做了筛选，选出其中动作幅度较大，而不是静止画面移动的视频，数量大约为0.48m。模型依然支持图片与视频预测，支持像素值从512x512x49、768x768x49、1024x1024x49与不同纵横比的视频生成。我们支持图像到视频的生成与视频到视频的重建。

另外，我们还发布了添加控制信号的训练代码与预测代码，并发布了初版的Control模型。

对比V1.0版本，CogVideoX-FUN V1.1突出了以下功能：

在5b模型中，给参考图片添加了Noise，增加了视频的运动幅度。
发布了添加控制信号的训练代码与预测代码，并发布了初版的Control模型。

参考图片添加Noise

在原本CogVideoX-FUN V1.0的基础上，我们参考CogVideoX和SVD，在非0的参考图向上添加Noise以破环原图，追求更大的运动幅度。

我们5b模型中添加了Noise，2b模型仅使用了新数据进行了finetune，因为我们在2b模型中尝试添加Noise之后，生成的视频运动幅度过大导致结果变形，破坏了生成结果，而5b模型因为更为的强大生成能力，在运动中也保持了较为稳定的输出。

另外，提示词对生成结果影响较大，请尽量描写动作以增加动态性。如果不知道怎么写正向提示词，可以使用smooth motion or in the wind来增加动态性。并且尽量避免在负向提示词中出现motion等表示动态的词汇。

添加控制信号的CogVideoX-Fun

在原本CogVideoX-FUN V1.0的基础上，我们使用Pose控制信号替代了原本的mask信号，将控制信号使用VAE编码后作为Guidance与latent一起进入patch流程，

我们在0.48m数据中进行了筛选，选择出大约20000包含人像的视频与图片进行pose提取，作为condition控制信号进行训练。

在进行训练时，我们根据不同Token长度，对视频进行缩放后进行训练。整个训练过程分为两个阶段，每个阶段的13312（对应512x512x49的视频），53248（对应1024x1024x49的视频）。

以CogVideoX-Fun-V1.1-5b-Pose为例子，其中：

13312阶段，Batch size为128，训练步数为2.4k
53248阶段，Batch size为128，训练步数为1.2k。

工作原理图如下：