
Anthropic、Claude Opus 4.5 を公開 — コーディングとエージェント領域で首位を主張
Anthropic は 11 月 24 日、新しい旗艦モデル Claude Opus 4.5 を公開した。Claude のコンシューマアプリに加え、Claude Developer Platform 上ではモデル識別子 claude-opus-4-5-20251101 として、Amazon Bedrock、Google Cloud Vertex AI、Microsoft Azure AI Foundry 経由でも同日提供開始となった。Reuters、CNBC、Bloomberg はいずれも、OpenAI の GPT-5.1 シリーズや Google の Gemini 3 に対するコーディング・エージェント・コンピュータ操作領域での競合カードとして本リリースを位置付けている。
今回のリリースは、2025 年の高密度な投入ペースの中に置かれる。Anthropic は 9 月 29 日に Claude Sonnet 4.5 をリリースし、最高プロダクト責任者ミハイ・クリーガー(Mike Krieger)氏は同モデルを大半のコーディング業務における新たなデフォルトと位置付けた。一方、Opus 4.1 は 100 万トークンあたり 15 ドル / 75 ドルで、最高難度のタスクに限定されてきた。今回の 5 ドル / 25 ドルへの価格設定は、Opus クラスの能力を Sonnet 階層の経済性まで引き下げるもので、実質的に約 3 分の 2 の値下げに相当する。コンテキスト長は 20 万トークンで据え置かれ、メモリと文脈編集の新たなベータ機能は長時間稼働するエージェント用途を意識したものとなっている。
Anthropic はリリースのブログ投稿で次のように記している。"Our newest model, Claude Opus 4.5, is available today. It's intelligent, efficient, and the best model in the world for coding, agents, and computer use."(最新モデル Claude Opus 4.5 が本日提供開始。コーディング、エージェント、コンピュータ操作において世界最高のモデルである。)さらに同社は "Opus 4.5 is a step forward in what AI systems can do, and a preview of larger changes to how work gets done."(Opus 4.5 は AI システムができることの前進であり、働き方そのものの大きな変化の予兆である。)と述べた。投稿には個別役員の発言は付されていない。Reuters と CNBC はいずれも、CEO ダリオ・アモデイ氏やクリーガー氏からの新規コメントを掲載せず、ポジショニングは法人としての Anthropic に帰属させて報じている。
ベンチマーク値について Anthropic は、SWE-bench Verified で 80.9 パーセントを記録したと公表した。これは公表ベースで初めて 80 パーセントを越えた値であるとしている。Terminal-Bench 2.0 で 59.3 パーセント、tau2-bench で 88.9 から 98.2 パーセントの範囲とも報告している。効率面では、中効力設定で Sonnet 4.5 の SWE-bench Verified スコアに匹敵しつつ出力トークンを約 76 パーセント削減し、高効力設定では Sonnet 4.5 を 4.3 ポイント上回りつつ約 48 パーセント少ないトークン消費に収まると主張している。Reuters は Anthropic の年率換算売上が 10 月末時点で 70 億ドルを超えたと報じた直近の取材も参照しつつ、本リリースを伝えている。
業界反応は、Anthropic が紹介する顧客(GitHub、Cursor、Notion、Lovable、Warp ほか)の間でベンチマーク数値以上に "性能対価格" のシフトに焦点が置かれた。一方で慎重派のアナリストは二点を指摘している。第一に、80.9 パーセントという SWE-bench スコアは Anthropic の発表でも注釈されているとおり、ハーネス構成や並列テストタイム計算手法に依存しており、解釈には注意が必要だという点。第二に、effort パラメータの導入は OpenAI や Google モデルとの単純比較を難しくする点である。エージェント安全性については、Anthropic 自身のシステムカードが Opus 4.5 を同社史上最もアラインされたフロンティアモデルと評価する一方、The Guardian など複数媒体が広義のエージェント AI 配備リスクに警鐘を鳴らし続けている。
遠方世界としては、本リリースの本質的な信号は SWE-bench の数値ではなく、価格である。入出力 100 万トークンあたり 5 ドル / 25 ドルというレンジは、Opus クラスの品質を、単発のエンタープライズコーディングだけでなく、継続稼働するキャラクター / ペルソナのパイプラインで現実的に運用できる費用帯に移すものだ。これにより、長時間にわたる NPC 対話、マルチターン音声エージェント、オンデバイスとクラウドのハイブリッドキャラクターといった用途で、当社の自由度が広がる。これまではトークン予算の制約から Sonnet 階層モデルに寄せざるを得なかった部分である。我々が築こうとしている本質的な堀 — キャラクターの声、ペルソナ一貫性、ローカルファーストランタイム — は変わらない。変わるのはその下のユニットエコノミクスだ。
今後 12 か月、我々は次の三点を注視する。(1) 5 / 25 ドルの価格水準が利用拡大とともに維持されるか、それとも他のフロンティア API で見られたように階層別の追加課金で実質的に上振れしていくか。(2) メモリと文脈編集の新プリミティブが、Sonnet のデフォルト価格帯にも降りてくるか — 独立系スタジオは Opus 経済性以下の階層でしか継続採用できないため重要である。(3) Anthropic の顧客証言にある "30 分連続自走コーディング" が、ベンチマーク的環境ではなく現実の汚れたプロダクションコードでも維持されるか。


