
Google DeepMind、リアルタイム対話型ワールドモデル "Genie 3" を公開
8 月 5 日、Google DeepMind が基盤ワールドモデル Genie 3 を公開した。テキストプロンプトから 720p 解像度・24fps のインタラクティブ 3D 環境を生成し、エピソードあたり数分間の連続操作を維持できる。DeepMind 研究ブログおよび TechCrunch の報道による。同モデルは Genie 2 の後継として、また具現化(embodied)AI エージェント訓練の基盤としての位置付けが与えられている。
Genie 3 は、2024 年に発表された初代 Genie と同年末の Genie 2 を継ぐ世代である。前世代までは短時間・低解像度のインタラクティブ場面生成にとどまっていた。2025 年版は、特定環境に縛られない汎用ワールドモデルとして DeepMind が初めて位置付けたバージョンであり、エピソード途中に天候変化、新規オブジェクト、追加キャラクターといった "プロンプト可能なワールドイベント" をリアルタイム処理する。同社リリースノートおよび TechCrunch の報道による。
DeepMind の研究ディレクター、シュロミ・フルクテル氏は TechCrunch に対し "Genie 3 is the first real-time interactive general-purpose world model. It goes beyond narrow world models that existed before. It's not specific to any particular environment. It can generate both photo-realistic and imaginary worlds, and everything in between." と述べた。研究員ジャック・パーカー=ホルダー氏も "we think world models are key on the path to AGI, specifically for embodied agents, where simulating real world scenarios is particularly challenging." と TechCrunch および Yahoo Finance の取材に応じた。
技術面では、Genie 3 は各フレームを過去フレーム軌跡に条件づける自己回帰方式でフレーム生成を行い、空間・時間一貫性を保つ。DeepMind ブログによる。エピソードは 24fps・720p で、長さは "数分間" — Genie 2 の秒単位出力より大幅に長い。同モデルは公開 API ではなく研究プレビュー形式で提供され、アクセスは DeepMind の研究パートナーシップおよび SIMA エージェント訓練パイプラインを介する。

報道の論点は二つに集約された。TechCrunch と Wired は本モデルをシミュレーション環境による具現化エージェント訓練の現実的な一歩と位置付け、DeepMind のワールドモデル=AGI 経路という解釈を引用した。一方、独立アナリストのベン・ディクソン氏(BD Tech Talks)は、インタラクティブエピソードが数分スケールでなお破綻を生じやすく、本格運用の訓練パイプラインにおいてゲームエンジンや物理シミュレータの代替には至らないと指摘している。
遠方世界としては、Genie 3 を近い将来に出荷製品へ組み込むことは想定していない。我々の領域はキャラクターとペルソナであり、手続き的に生成される環境ではないからだ。ただし基盤となる能力は、小規模キャラクタースタジオが試作できる範囲を変える。キャラクター挙動に応答するリアルタイムワールドモデルがあれば、本番ゲームビルドで実ステージにコミットする前に、舞台、照明、群衆密度を変えながらペルソナの読まれ方を低コストで検証できるようになる。
今後 12 か月、注視するのは三点。(1) DeepMind が研究パートナーシップ以外に Genie 3 アクセスを開放するか、そのライセンス条件はどうなるか — これが Big Tech 外で実際に試作できるプレーヤーの範囲を決める。(2) エピソード長と一貫性がどこまで改善するか — "数分" は依然としてゲームセッション規模に届かない。(3) NVIDIA、Runway、中国系などの競合ラボが同等以上の汎用ワールドモデルを公開するか — それが起これば、本カテゴリの共通評価指標への収束が加速する。


