
OpenAI、自動ルーター搭載の "GPT-5" を公開
8 月 7 日、OpenAI が CEO サム・アルトマン氏主導のライブ配信で GPT-5 を公開した。BBC、NBC News、OpenAI 公式発表ページによる。同社は GPT-5 を、各分野で "PhD レベルの専門家" として機能する統合モデルファミリーと位置付ける。本リリースでは、ベースモデルと長時間推論バリアント "GPT-5 thinking" の間を自動振り分けするリアルタイムルーターが導入され、API 開発者向けには小型版 GPT-5 mini と GPT-5 nano が提供される。
GPT-5 は GPT-4 世代に乱立した SKU 群(GPT-4、GPT-4o、GPT-4 Turbo、o3)を一つのブランドに統合する。OpenAI は 2024 年半ば頃から本リリースを準備し、複数回にわたり発表を後ろ倒しにしてきた。Axios と Reuters は、同社が 2025 年春をアライメント、評価、安全性検証に費やしたと報じた。アルトマン氏は 2025 年 7 月、ポッドキャスト Theo Von で本モデルを初めて公に予告している。
ローンチイベントでアルトマン氏は過去世代との比較を次のように述べた。"GPT-3, sort of felt to me like talking to a high school student. GPT-4 felt like you're kind of talking to a college student. With GPT-5, now it's like talking to an expert, a legitimate PhD-level expert in anything, in any area you need." 発言は BBC および PCMag の報道による。NBC News は同氏の "a team of Ph.D. level experts in your pocket" という表現も引用した。
OpenAI は複数の公開ベンチマークで最高水準の結果を報告した。ソフトウェアエンジニアリング課題の SWE-bench Verified で 74.9%、ツール不使用の AIME 2025 数学で 94.6%、GPQA Diamond 科学問題で 85.7%、Aider Polyglot コーディングで 88%。OpenAI 開発者向け投稿および Wired の報道による。同社はさらに、GPT-5 の応答は GPT-4o 比で事実誤りを含む確率がおよそ 45% 低く、GPT-5 thinking 起動時には推論モデル o3 比でおよそ 80% 低いとした。API 料金は主力モデルが入力トークン 100 万あたり 1.25 ドル、出力 10 ドル、mini が 0.25 / 2 ドル、nano が 0.05 / 0.40 ドル。
各社の論調は分かれた。The Register はハルシネーション低減の主張と OpenAI のモデルライン統合を取り上げ、Wired はルーター方式がエンドユーザーからモデル選択を不可視化する点を指摘した。一部の早期利用者と開発者は、Plus プランにおける GPT-5 応答が GPT-4o より親しみに欠けると SNS 上で不満を示し、これを受けて OpenAI はリリース数日以内にレガシーモデルへの選択的アクセスを復活させたと NBC News が報じた。
遠方世界としては、GPT-5 で最も影響が大きいのは見出しのベンチマーク値ではなく、自動ルーターの導入そのものである。我々のキャラクターおよびペルソナ業務はターン単位での挙動 — 口調、レイテンシ、拒否パターン — を厳密かつ予測可能に保つ必要があり、モデル選択を裏で切り替えるルーターは、デザイナーと脚本家が依存する契約を破る。我々はルーター経由のデフォルトではなく、GPT-5 mini および GPT-5 thinking を個別エンドポイントとして評価しており、挙動が安定するまではパイプラインをモデル非依存に保つ。
今後 12 か月、注視するのは三点。(1) OpenAI が GPT-5 ルーターに対する呼び出し単位の決定的制御を開発者に開放するか、不透明のまま維持するか。(2) SWE-bench の数値向上が、当社内部コーディング業務の中心であるゲームエンジンおよびツール開発の実生産性にどの程度反映されるか。(3) ハルシネーション低減の主張が、小さな事実ずれがペルソナ一貫性の崩壊として積み重なる長時間キャラクター対話で維持されるか。


