
Anthropic 发布 Claude Opus 4.5,声称在编码与智能体能力上居首
Anthropic 于 11 月 24 日发布新的旗舰模型 Claude Opus 4.5,同日通过 Claude 消费端 App、Claude Developer Platform(模型标识为 claude-opus-4-5-20251101)以及 Amazon Bedrock、Google Cloud Vertex AI、Microsoft Azure AI Foundry 同步上线。Reuters、CNBC 与 Bloomberg 均将本次发布定位为针对 OpenAI GPT-5.1 系列与 Google Gemini 3 的竞争动作,重点指向编码、智能体与计算机操作类工作负载。
本次发布处在 2025 年 Anthropic 的高密度发布节奏中。9 月 29 日,公司推出 Claude Sonnet 4.5,首席产品官 Mike Krieger 将其定位为大多数编码场景的新默认模型;而 Opus 4.1 则停留在每百万 token 15 / 75 美元,仅服务最高难度任务。此次 5 / 25 美元的定价,把 Opus 级别能力下放到 Sonnet 档的经济性,相当于价格大约下调三分之二。上下文窗口仍为 20 万 token,新增的 memory 与 context editing beta 功能则面向长时间稳定运行的智能体场景。
Anthropic 在发布博客中写道:"Our newest model, Claude Opus 4.5, is available today. It's intelligent, efficient, and the best model in the world for coding, agents, and computer use."(最新模型 Claude Opus 4.5 今日上线,在编码、智能体与计算机操作领域为全球最强。)公司还表示:"Opus 4.5 is a step forward in what AI systems can do, and a preview of larger changes to how work gets done."(Opus 4.5 是 AI 系统能力的一次前进,也是工作方式更大变化的前奏。)博客本身未配以高管个人发言;Reuters 与 CNBC 在报道中也未引用 CEO Dario Amodei 或 Mike Krieger 针对此次发布的新表态,仅将定位语句归于 Anthropic 官方。
在基准测试上,Anthropic 表示 SWE-bench Verified 取得 80.9 % — 据其公开披露为业界首次突破 80 % 的成绩;Terminal-Bench 2.0 为 59.3 %;tau2-bench 区间在 88.9 % 至 98.2 %。在效率维度上,公司声称在中等 effort 档下可以以约少 76 % 的输出 token 匹配 Sonnet 4.5 的 SWE-bench Verified 分数,在高 effort 档下用约少 48 % 的 token 反超 Sonnet 4.5 4.3 个百分点。Reuters 在报道中亦回顾了同一发布周期中关于 Anthropic 年化收入在 10 月末已突破 70 亿美元的此前披露。
行业反应方面,Anthropic 援引的客户(GitHub、Cursor、Notion、Lovable、Warp 等)将焦点置于 "性能 / 价格" 的阶跃,而非纯基准数字。较谨慎的分析师指出两点:其一,80.9 % 的 SWE-bench 分数依赖于 harness 配置与并行 test-time 计算方法,这一点 Anthropic 自家公告也以脚注形式说明;其二,effort 参数的引入使其与 OpenAI、Google 模型的横向比较更复杂。在智能体安全方面,Anthropic 自家 system card 将 Opus 4.5 评为公司迄今对齐效果最好的前沿模型,而 The Guardian 等媒体仍持续提示更广义的智能体 AI 部署风险。
在我们看来,本次发布的关键信号不是 SWE-bench 数字,而是价格。每百万 token 5 美元输入 / 25 美元输出,把 Opus 级别质量带入了可以承担长期稳定运行的角色与 persona 流水线的成本带,而不仅限于一次性企业编码会话。这扩展了我们在长时长 NPC 对话、多轮语音智能体以及端侧 + 云端混合角色这些场景上的自由度 — 此前 token 预算压力总把我们推向 Sonnet 档。我们想要建立的真正壁垒 — 角色语音、persona 一致性、本地优先运行时 — 并不会变;变化发生在它下面的单位经济模型。
接下来 12 个月,我们会持续关注三件事:(1) 5 / 25 美元的价格在使用规模放大后是否守得住,还是会通过分层附加费悄悄上移 — 这是其它前沿 API 已经发生过的轨迹。(2) 新的 memory 与 context editing 原语是否会下放到 Sonnet 默认档定价 — 独立工作室只有在 Opus 经济性之下才会真正持续采用。(3) Anthropic 客户证词中提到的 "30 分钟自主编码会话" 在真实、脏的生产代码库上能否保持,还是仍然主要是面向基准的能力。


