重塑视频互动体验：腾讯联合高校推出创新“Follow-Your-Pose-v2”模型

腾讯联合中山大学、港科大推出图生视频模型“Follow-Your-Pose-v2”。

“Follow-Your-Pose-v2”模型是一款全新的图生视频模型，它只需要输入一张人物图片和一段动作视频，就可以让图片上的人跟随视频上的动作动起来，生成的视频长度可达10秒。这一功能大大降低了视频制作的门槛，同时提升了创作效率。

高效推理：与此前推出的模型相比，“Follow-Your-Pose-v2”可以在推理耗时更少的情况下，支持多人视频动作生成。这意味着该模型在处理复杂场景时更加迅速和高效。

强大泛化能力：该模型具备较强的泛化能力，无论输入人物是什么年龄、服装、人种，背景如何杂乱，动作视频的动作如何复杂，都能生成出高质量的视频。这一特点使得该模型能够广泛应用于各种场景和人物。

支持多人动作驱动：值得一提的是，“Follow-Your-Pose-v2”还支持单张图片上多个人物的动作驱动。在面对单张图片上多个人物的躯体相互遮挡问题时，该模型能生成出具有正确的前后关系的遮挡画面，保证多人“合舞”顺利完成。

为了解决传统方法在动作驱动图片生成视频任务中的问题，“Follow-Your-Pose-v2”提出了一个支持任意数量的“指导器”的框架。其中，“光流指导器”引入了背景光流信息，使模型能够在大量有噪声的低质量数据上训练收敛；“推理图指导器”引入了图片中的人物空间信息，赋予模型更强的动作跟随能力；而“深度图指导器”则引入了多人物的深度图信息，增强了模型对于多角色的空间位置关系的理解和生成能力。

重塑视频互动体验：腾讯联合高校推出创新“Follow-Your-Pose-v2”模型

热门推荐