TeleWorld 中文解读

TL;DR

TeleWorld 将视频生成、动态场景重建与长期世界记忆统一到一个闭环系统：生成的流式视频会被持续重建为 4D 时空表示，再用这份表示反向引导后续生成，从而提升空间/时间一致性。与单纯"更强的视频扩散模型"相比，TeleWorld 更强调：可持续的状态表示、可累积的记忆，以及生成-重建-引导之间的闭环耦合。

1. 为什么要闭环：长视频的一致性问题不是靠单次生成解决的

长时序里最典型的失败是误差累积：几何结构漂移、身份特征漂移、物体关系失真。这类问题往往需要一个可持续维护的"世界状态"来对齐后续生成，而不仅仅是更强的局部去噪。

2. 4D 表示与长期记忆：把生成结果变成可写入的状态

TeleWorld 的关键是把生成的视频持续投影/重建为可操作的 4D 状态表示，并用记忆机制保存跨时间的一致性线索。这样后续生成不是从零开始，而是在状态约束下继续扩展。

3. Key Insights：world model 的关键是"状态"而不是"画面"

当你把系统目标从"生成一段好看的视频"提升到"维持一个可演化的世界状态"，优化对象就会改变：需要更可解释、更可约束、更可更新的内部表示。这也是为什么闭环框架往往比单次生成更接近 world model。

Links

arXiv PDF

TeleWorld：走向 4D 闭环世界模型的多模态生成

1. 为什么要闭环：长视频的一致性问题不是靠单次生成解决的

2. 4D 表示与长期记忆：把生成结果变成可写入的状态

3. Key Insights：world model 的关键是"状态"而不是"画面"

Links