Anthropic 发布 Claude Opus 4.5，声称在编码与智能体能力上居首

Anthropic 于 11 月 24 日发布新的旗舰模型 Claude Opus 4.5，同日通过 Claude 消费端 App、Claude Developer Platform（模型标识为 claude-opus-4-5-20251101）以及 Amazon Bedrock、Google Cloud Vertex AI、Microsoft Azure AI Foundry 同步上线。Reuters、CNBC 与 Bloomberg 均将本次发布定位为针对 OpenAI GPT-5.1 系列与 Google Gemini 3 的竞争动作，重点指向编码、智能体与计算机操作类工作负载。

本次发布处在 2025 年 Anthropic 的高密度发布节奏中。9 月 29 日，公司推出 Claude Sonnet 4.5，首席产品官 Mike Krieger 将其定位为大多数编码场景的新默认模型；而 Opus 4.1 则停留在每百万 token 15 / 75 美元，仅服务最高难度任务。此次 5 / 25 美元的定价，把 Opus 级别能力下放到 Sonnet 档的经济性，相当于价格大约下调三分之二。上下文窗口仍为 20 万 token，新增的 memory 与 context editing beta 功能则面向长时间稳定运行的智能体场景。

Anthropic 在发布博客中写道："Our newest model, Claude Opus 4.5, is available today. It's intelligent, efficient, and the best model in the world for coding, agents, and computer use."（最新模型 Claude Opus 4.5 今日上线，在编码、智能体与计算机操作领域为全球最强。）公司还表示："Opus 4.5 is a step forward in what AI systems can do, and a preview of larger changes to how work gets done."（Opus 4.5 是 AI 系统能力的一次前进，也是工作方式更大变化的前奏。）博客本身未配以高管个人发言；Reuters 与 CNBC 在报道中也未引用 CEO Dario Amodei 或 Mike Krieger 针对此次发布的新表态，仅将定位语句归于 Anthropic 官方。

在基准测试上，Anthropic 表示 SWE-bench Verified 取得 80.9 % — 据其公开披露为业界首次突破 80 % 的成绩；Terminal-Bench 2.0 为 59.3 %；tau2-bench 区间在 88.9 % 至 98.2 %。在效率维度上，公司声称在中等 effort 档下可以以约少 76 % 的输出 token 匹配 Sonnet 4.5 的 SWE-bench Verified 分数，在高 effort 档下用约少 48 % 的 token 反超 Sonnet 4.5 4.3 个百分点。Reuters 在报道中亦回顾了同一发布周期中关于 Anthropic 年化收入在 10 月末已突破 70 亿美元的此前披露。

行业反应方面，Anthropic 援引的客户（GitHub、Cursor、Notion、Lovable、Warp 等）将焦点置于 "性能 / 价格" 的阶跃，而非纯基准数字。较谨慎的分析师指出两点：其一，80.9 % 的 SWE-bench 分数依赖于 harness 配置与并行 test-time 计算方法，这一点 Anthropic 自家公告也以脚注形式说明；其二，effort 参数的引入使其与 OpenAI、Google 模型的横向比较更复杂。在智能体安全方面，Anthropic 自家 system card 将 Opus 4.5 评为公司迄今对齐效果最好的前沿模型，而 The Guardian 等媒体仍持续提示更广义的智能体 AI 部署风险。

在我们看来，本次发布的关键信号不是 SWE-bench 数字，而是价格。每百万 token 5 美元输入 / 25 美元输出，把 Opus 级别质量带入了可以承担长期稳定运行的角色与 persona 流水线的成本带，而不仅限于一次性企业编码会话。这扩展了我们在长时长 NPC 对话、多轮语音智能体以及端侧 + 云端混合角色这些场景上的自由度 — 此前 token 预算压力总把我们推向 Sonnet 档。我们想要建立的真正壁垒 — 角色语音、persona 一致性、本地优先运行时 — 并不会变；变化发生在它下面的单位经济模型。

接下来 12 个月，我们会持续关注三件事：(1) 5 / 25 美元的价格在使用规模放大后是否守得住，还是会通过分层附加费悄悄上移 — 这是其它前沿 API 已经发生过的轨迹。(2) 新的 memory 与 context editing 原语是否会下放到 Sonnet 默认档定价 — 独立工作室只有在 Opus 经济性之下才会真正持续采用。(3) Anthropic 客户证词中提到的 "30 分钟自主编码会话" 在真实、脏的生产代码库上能否保持，还是仍然主要是面向基准的能力。

Anthropic 发布 Claude Opus 4.5，声称在编码与智能体能力上居首

Related Articles

远方世界开放 ORDO 内测预约，并上线产品网站

五角大楼向 7 家 AI 供应商授予机密网络合同，Anthropic 因使用条款分歧被排除

DeepSeek 发布 V4：1.6 万亿参数、1M token 上下文，延续 MIT 协议开源