TL;DR
TeleWorld 将视频生成、动态场景重建与长期世界记忆统一到一个闭环系统:生成的流式视频会被持续重建为 4D 时空表示,再用这份表示反向引导后续生成,从而提升空间/时间一致性。 与单纯"更强的视频扩散模型"相比,TeleWorld 更强调:可持续的状态表示、可累积的记忆,以及生成-重建-引导之间的闭环耦合。
1. 为什么要闭环:长视频的一致性问题不是靠单次生成解决的
长时序里最典型的失败是误差累积:几何结构漂移、身份特征漂移、物体关系失真。 这类问题往往需要一个可持续维护的"世界状态"来对齐后续生成,而不仅仅是更强的局部去噪。
2. 4D 表示与长期记忆:把生成结果变成可写入的状态
TeleWorld 的关键是把生成的视频持续投影/重建为可操作的 4D 状态表示,并用记忆机制保存跨时间的一致性线索。 这样后续生成不是从零开始,而是在状态约束下继续扩展。
3. Key Insights:world model 的关键是"状态"而不是"画面"
当你把系统目标从"生成一段好看的视频"提升到"维持一个可演化的世界状态",优化对象就会改变: 需要更可解释、更可约束、更可更新的内部表示。 这也是为什么闭环框架往往比单次生成更接近 world model。