
Google DeepMind 发布实时可交互世界模型 Genie 3
8 月 5 日,Google DeepMind 公布基础世界模型 Genie 3。该模型可由文本提示生成 720p、24fps 的可交互 3D 环境,单局连续交互可维持数分钟。该信息来自 DeepMind 研究博客与 TechCrunch 报道。DeepMind 将其定位为 Genie 2 的下一代,并作为具身(embodied)AI 智能体训练的基础设施。
Genie 3 承接 2024 年发布的初代 Genie 与同年末的 Genie 2,前两代仅能生成短时长、低分辨率的可交互场景。2025 年版是 DeepMind 首次明确定性为不绑定特定环境的通用世界模型,并支持在交互途中以提示触发的世界事件 — 天气变化、新物体、新角色 — 实时插入。该信息来自该公司发布说明与 TechCrunch 报道。
DeepMind 研究主管 Shlomi Fruchter 对 TechCrunch 表示:"Genie 3 is the first real-time interactive general-purpose world model. It goes beyond narrow world models that existed before. It's not specific to any particular environment. It can generate both photo-realistic and imaginary worlds, and everything in between." 研究员 Jack Parker-Holder 在 TechCrunch 与 Yahoo Finance 的采访中补充:"we think world models are key on the path to AGI, specifically for embodied agents, where simulating real world scenarios is particularly challenging."
技术上,Genie 3 以自回归方式逐帧生成,每一帧都以历史帧轨迹为条件,以维持空间与时间一致性。该信息见于 DeepMind 博客。每集运行于 24fps、720p,时长被描述为 "数分钟",相较 Genie 2 的秒级输出有数量级提升。该模型以研究预览形式发布,并未提供公开 API;访问需通过 DeepMind 研究合作及 SIMA 智能体训练管线。

媒体反响主要集中在两条线。TechCrunch 与 Wired 将其视为以模拟环境训练具身智能体的现实进展,并引用 DeepMind 关于世界模型是通向 AGI 关键路径的表述。独立分析师 Ben Dickson(BD Tech Talks)则提醒,交互在数分钟尺度上仍会出现漂移,模型尚不足以在生产级训练管线中替代游戏引擎或物理模拟器。
在我们看来,Genie 3 短期内不会被远方世界引入出货产品 — 我们的业务在角色与 persona,不在程序化生成的环境本身。但其底层能力会改变小型角色工作室的试做空间。一个能对角色行为实时响应的世界模型,让我们可以在实际游戏构建提交某一场景之前,以低成本切换舞台、光照与人群密度,检验某个 persona 在不同设置下的读感。
接下来 12 个月,我们会观察三件事:(1) DeepMind 是否会将 Genie 3 的访问范围扩展至研究合作之外,授权条款如何 — 这决定了 Big Tech 之外有多少团队可以真正用其试做;(2) 单局时长与一致性能改进多少 — "数分钟" 距离游戏会话规模仍有相当距离;(3) NVIDIA、Runway 与中国厂商等竞争实验室能否推出同级或更强的通用世界模型 — 一旦出现,会推动该品类向共同评估基准收敛。


