正文内容
StreamingT2V产品介绍

StreamingT2V 是一种先进的自回归技术,旨在从文本生成长视频,具备丰富的运动动态而无任何停滞现象。该技术确保视频的时间一致性,与描述文本紧密对齐,并保持高帧级图像质量。其演示案例包括成功生成长达1200帧、时长2分钟的视频,且可扩展至更长时间。重要的是,StreamingT2V 的有效性并不受特定的文本到视频模型的限制,这意味着基础模型的改进可以带来更高质量的视频。
StreamingT2V 的核心组件包括:
- 条件注意模块(CAM):这是一个短期记忆块,通过注意机制将当前生成与先前块提取的特征相结合,从而实现一致的块过渡。
- 外观保留模块(APM):这是一个长期记忆块,从第一个视频块提取高层场景和对象特征,以防止模型忘记初始场景。
- 随机混合方法:该方法使得可以自回归地应用视频增强器,从而生成无限长的视频而不出现块之间的不一致。
StreamingT2V 的整体流程包括三个阶段:
- 初始化阶段:通过文本到视频模型合成第一段16帧的块。
- Streaming T2V 阶段:自回归生成后续帧的新内容。
- Streaming Refinement 阶段:通过应用高分辨率的文本到短视频模型,自回归增强生成的长视频(600帧、1200帧或更多)。
实验结果表明,StreamingT2V 生成的运动量较高,而所有竞争的图像到视频方法在自回归应用时容易出现视频停滞。因此,StreamingT2V 提供了一种高质量、无缝的文本到长视频生成器,以一致性和运动性超越竞争对手。