
OpenAI 发布 GPT-5,引入自动路由推理系统
8 月 7 日,OpenAI 在 CEO Sam Altman 主导的现场直播中发布 GPT-5。该信息来自 BBC、NBC News 与 OpenAI 官方公告。该公司将 GPT-5 定位为在各领域达到 "博士级专家" 水平的统一模型家族。本次发布引入了一个实时路由器,可在基础模型与长推理变体 "GPT-5 thinking" 之间自动切换;面向 API 开发者另提供小型版 GPT-5 mini 与 GPT-5 nano。
GPT-5 将 GPT-4 时代林立的 SKU(GPT-4、GPT-4o、GPT-4 Turbo、o3)整合至单一品牌。OpenAI 自 2024 年中前后即开始为本次发布做准备,期间数次推迟。据 Axios 与 Reuters 报道,公司将 2025 年春季用于对齐、评测与安全性工作。Altman 最早在 2025 年 7 月做客 Theo Von 播客时首次对外预告该模型。
发布会上 Altman 将本次升级与上代做了对比:"GPT-3, sort of felt to me like talking to a high school student. GPT-4 felt like you're kind of talking to a college student. With GPT-5, now it's like talking to an expert, a legitimate PhD-level expert in anything, in any area you need." 该表述由 BBC 与 PCMag 报道。NBC News 另引用其 "a team of Ph.D. level experts in your pocket" 的说法。
OpenAI 在多项公开基准上报告了业内领先成绩:软件工程任务 SWE-bench Verified 74.9%、不使用工具的 AIME 2025 数学 94.6%、GPQA Diamond 科学题 85.7%、Aider Polyglot 编码 88%。该数据见于 OpenAI 开发者博客及 Wired 报道。该公司还表示,GPT-5 输出包含事实错误的概率较 GPT-4o 低约 45%;启用 GPT-5 thinking 时较 o3 推理模型再低约 80%。API 定价:旗舰模型每百万输入 token 1.25 美元、输出 10 美元;mini 0.25 / 2 美元;nano 0.05 / 0.40 美元。
各家媒体口径分歧。The Register 重点关注幻觉率主张与 OpenAI 模型线整合;Wired 则指出路由器方案在终端用户层面隐藏了模型切换细节。部分早期试用者与开发者在社媒上抱怨 Plus 等级下 GPT-5 的回应不如 GPT-4o 亲切。据 NBC News 报道,OpenAI 在发布后数日内即恢复了对旧模型的可选访问。
在我们看来,GPT-5 真正影响远方世界的不是头条基准值,而是自动路由器本身。我们的角色与 persona 业务依赖按轮次可预测的行为 — 语气、延迟、拒答模式 — 一个在底层悄悄切换模型的路由器会破坏设计师与编剧所依赖的契约。我们正在以 GPT-5 mini 与 GPT-5 thinking 作为独立端点单独评估,而不是采用路由后的默认入口;在路由行为稳定之前,我们的管线会保持模型无关的设计。
接下来 12 个月,我们会持续观察三件事:(1) OpenAI 是否会向开发者开放对 GPT-5 路由器的逐次确定性控制,或继续保持不透明;(2) SWE-bench 成绩的提升能否落地到我们内部最频繁使用的游戏引擎与工具链编码场景;(3) 幻觉率下降的主张能否在长时间角色对话中维持 — 此类场景中微小事实漂移会逐步累积为人设一致性崩坏。


