Google DeepMind 发布实时可交互世界模型 Genie 3

8 月 5 日，Google DeepMind 公布基础世界模型 Genie 3。该模型可由文本提示生成 720p、24fps 的可交互 3D 环境，单局连续交互可维持数分钟。该信息来自 DeepMind 研究博客与 TechCrunch 报道。DeepMind 将其定位为 Genie 2 的下一代，并作为具身（embodied）AI 智能体训练的基础设施。

Genie 3 承接 2024 年发布的初代 Genie 与同年末的 Genie 2，前两代仅能生成短时长、低分辨率的可交互场景。2025 年版是 DeepMind 首次明确定性为不绑定特定环境的通用世界模型，并支持在交互途中以提示触发的世界事件 — 天气变化、新物体、新角色 — 实时插入。该信息来自该公司发布说明与 TechCrunch 报道。

DeepMind 研究主管 Shlomi Fruchter 对 TechCrunch 表示："Genie 3 is the first real-time interactive general-purpose world model. It goes beyond narrow world models that existed before. It's not specific to any particular environment. It can generate both photo-realistic and imaginary worlds, and everything in between." 研究员 Jack Parker-Holder 在 TechCrunch 与 Yahoo Finance 的采访中补充："we think world models are key on the path to AGI, specifically for embodied agents, where simulating real world scenarios is particularly challenging."

技术上，Genie 3 以自回归方式逐帧生成，每一帧都以历史帧轨迹为条件，以维持空间与时间一致性。该信息见于 DeepMind 博客。每集运行于 24fps、720p，时长被描述为 "数分钟"，相较 Genie 2 的秒级输出有数量级提升。该模型以研究预览形式发布，并未提供公开 API；访问需通过 DeepMind 研究合作及 SIMA 智能体训练管线。

Google／Alphabet 首席执行官 Sundar Pichai — Sundar Pichai。来源：欧盟／Wikimedia Commons（CC BY 4.0）。

媒体反响主要集中在两条线。TechCrunch 与 Wired 将其视为以模拟环境训练具身智能体的现实进展，并引用 DeepMind 关于世界模型是通向 AGI 关键路径的表述。独立分析师 Ben Dickson（BD Tech Talks）则提醒，交互在数分钟尺度上仍会出现漂移，模型尚不足以在生产级训练管线中替代游戏引擎或物理模拟器。

在我们看来，Genie 3 短期内不会被远方世界引入出货产品 — 我们的业务在角色与 persona，不在程序化生成的环境本身。但其底层能力会改变小型角色工作室的试做空间。一个能对角色行为实时响应的世界模型，让我们可以在实际游戏构建提交某一场景之前，以低成本切换舞台、光照与人群密度，检验某个 persona 在不同设置下的读感。

接下来 12 个月，我们会观察三件事：(1) DeepMind 是否会将 Genie 3 的访问范围扩展至研究合作之外，授权条款如何 — 这决定了 Big Tech 之外有多少团队可以真正用其试做；(2) 单局时长与一致性能改进多少 — "数分钟" 距离游戏会话规模仍有相当距离；(3) NVIDIA、Runway 与中国厂商等竞争实验室能否推出同级或更强的通用世界模型 — 一旦出现，会推动该品类向共同评估基准收敛。

Share

Google DeepMind 发布实时可交互世界模型 Genie 3

Related Articles

远方世界开放 ORDO 内测预约，并上线产品网站

五角大楼向 7 家 AI 供应商授予机密网络合同，Anthropic 因使用条款分歧被排除

DeepSeek 发布 V4：1.6 万亿参数、1M token 上下文，延续 MIT 协议开源