Freeive

News·公開 2026.05.29·閲覧 6

Claude Opus 4.8 公開、コーディング・エージェント系ベンチマークで多くが首位

Anthropicが新モデルClaude Opus 4.8を公開した。コーディングやコンピュータ操作、知識業務など多くのベンチマークで首位を記録し、Claude Codeでの自律的なエージェント動作が強調された。

Anthropicが新たな大規模言語モデルClaude Opus 4.8を公開した。同社が併せて示した比較データによると、Opus 4.8はコーディングやコンピュータ操作、知識業務など多くのベンチマークで、前モデルのOpus 4.7に加えGPT-5.5やGemini 3.1 Proを上回った。特に開発ツールClaude Codeにおいて、長時間の作業セッションを自律的にこなすエージェント動作が今回のリリースの中心として示された。

主なポイント

  • コーディングのベンチマークで首位 — 公開された数値によると、Opus 4.8はSWE-Bench Proで69.2%を記録し、Opus 4.7(64.3%)、GPT-5.5(58.6%)、Gemini 3.1 Pro(54.2%)をいずれも上回った。
  • エージェント・知識業務で優位 — コンピュータ操作(OSWorld-Verified)83.4%、知識業務(GDPval-AA)1890点、金融分析(Finance Agent v2)53.9%など、比較モデルの中で最も高い数値を示した。ただしターミナルコーディング(Terminal-Bench 2.1)ではGPT-5.5が78.2%でOpus 4.8(74.6%)を上回った。
  • Claude Codeでの自律実行 — AnthropicはOpus 4.8について、Claude Codeで継続的な確認なしに経験豊富なエンジニアのようにツール呼び出しを行い、長い実行セッションにわたって軌道を維持しながらリポジトリの作業を最後まで追跡すると説明した。ユーザーは機能実装やバグ修正を丸ごと任せられるという。
  • 高速オプション「Fast mode」 — 一方、案内ページによるとFast modeは同じOpusレベルの知能を保ちつつ出力トークン速度を2.5倍に高めた高速構成で(ページ上はOpus 4.7基準で表記)、Claude Code(追加使用量を有効化したユーザー)とAPIの順番待ちリストを通じてリサーチプレビューとして提供される。

ベンチマーク比較

項目Opus 4.8Opus 4.7GPT-5.5Gemini 3.1 Pro
Agentic coding (SWE-Bench Pro)69.2%64.3%58.6%54.2%
Agentic terminal coding (Terminal-Bench 2.1)74.6%66.1%78.2%70.3%
Multidisciplinary reasoning (HLE, no tools)49.8%46.9%41.4%44.4%
Multidisciplinary reasoning (HLE, with tools)57.9%54.7%52.2%51.4%
Agentic computer use (OSWorld-Verified)83.4%82.8%78.7%76.2%
Knowledge work (GDPval-AA)1890175317691314
Agentic financial analysis (Finance Agent v2)53.9%51.5%51.8%43.0%

解説

今回のリリースで注目すべきは、個々のベンチマークの順位そのものよりも「任せられるかどうか」に重心が置かれている点だ。長いセッションの間も文脈を失わず作業を最後までやり遂げる能力こそが、実務での体感差につながるためである。業界では、モデル評価の基準が単なる正答率から「どれだけ長く、どれだけ自律的に作業を任せられるか」へと移りつつあるとの分析が出ている。ターミナルコーディングのように一部の項目で競合モデルが上回った点は、単一のモデルがあらゆる作業で優位に立つことが難しい段階に入ったことを示唆しているとも読み取れる。

出典

#Claude#Opus#AIモデル#Claude Code#ベンチマーク#Anthropic

Comments

コメント 0

サインイン状態を確認中…

コメントを読み込み中…

Recent

他の日記も。