Home/Publications/TeleWorld
Paper Note

TeleWorld:走向 4D 闭环世界模型的多模态生成

把"生成"拉进闭环:生成的视频被持续重建为 4D 表示,再反向引导后续生成,用长期记忆提升一致性与可交互性。

World Model 4D Representation Long-term Consistency
TL;DR

TeleWorld 将视频生成、动态场景重建与长期世界记忆统一到一个闭环系统:生成的流式视频会被持续重建为 4D 时空表示,再用这份表示反向引导后续生成,从而提升空间/时间一致性。 与单纯"更强的视频扩散模型"相比,TeleWorld 更强调:可持续的状态表示、可累积的记忆,以及生成-重建-引导之间的闭环耦合。

1. 为什么要闭环:长视频的一致性问题不是靠单次生成解决的

长时序里最典型的失败是误差累积:几何结构漂移、身份特征漂移、物体关系失真。 这类问题往往需要一个可持续维护的"世界状态"来对齐后续生成,而不仅仅是更强的局部去噪。

2. 4D 表示与长期记忆:把生成结果变成可写入的状态

TeleWorld 的关键是把生成的视频持续投影/重建为可操作的 4D 状态表示,并用记忆机制保存跨时间的一致性线索。 这样后续生成不是从零开始,而是在状态约束下继续扩展。

3. Key Insights:world model 的关键是"状态"而不是"画面"

当你把系统目标从"生成一段好看的视频"提升到"维持一个可演化的世界状态",优化对象就会改变: 需要更可解释、更可约束、更可更新的内部表示。 这也是为什么闭环框架往往比单次生成更接近 world model。

Links