重塑视频互动体验:腾讯联合高校推出创新“Follow-Your-Pose-v2”模型 2024-06-08 | - 腾讯联合中山大学、港科大推出图生视频模型“Follow-Your-Pose-v2”。 “Follow-Your-Pose-v2”模型是一款全新的图生视频模型,它只需要输入一张人物图片和一段动作视频,就可以让图片上的人跟随视频上的动作动起来,生成的视频长度可达10秒。这一功能大大降低了视频制作的门槛,同时提升了创作效率。 高效推理:与此前推出的模型相比,“Follow-Your-Pose-v2”可以在推理耗时更少的情况下,支持多人视频动作生成。这意味着该模型在处理复杂场景时更加迅速和高效。 强大泛化能力:该模型具备较强的泛化能力,无论输入人物是什么年龄、服装、人种,背景如何杂乱,动作视频的动作如何复杂,都能生成出高质量的视频。这一特点使得该模型能够广泛应用于各种场景和人物。 支持多人动作驱动:值得一提的是,“Follow-Your-Pose-v2”还支持单张图片上多个人物的动作驱动。在面对单张图片上多个人物的躯体相互遮挡问题时,该模型能生成出具有正确的前后关系的遮挡画面,保证多人“合舞”顺利完成。 为了解决传统方法在动作驱动图片生成视频任务中的问题,“Follow-Your-Pose-v2”提出了一个支持任意数量的“指导器”的框架。其中,“光流指导器”引入了背景光流信息,使模型能够在大量有噪声的低质量数据上训练收敛;“推理图指导器”引入了图片中的人物空间信息,赋予模型更强的动作跟随能力;而“深度图指导器”则引入了多人物的深度图信息,增强了模型对于多角色的空间位置关系的理解和生成能力。