News·발행 2026.05.29·조회 6

Claude Opus 4.8 공개, 코딩·에이전트 벤치마크 대부분 1위

Anthropic이 신모델 Claude Opus 4.8을 공개했다. 코딩·컴퓨터 사용·지식 업무 등 다수 벤치마크에서 1위를 기록했고, Claude Code에서 긴 세션을 자율 수행하는 에이전트 동작이 강조됐다.

Anthropic이 신형 대규모 언어모델 Claude Opus 4.8을 공개했다. 회사가 함께 제시한 비교 자료에 따르면, Opus 4.8은 코딩과 컴퓨터 사용, 지식 업무 등 다수의 벤치마크에서 직전 모델인 Opus 4.7은 물론 GPT-5.5, Gemini 3.1 Pro를 앞선 것으로 나타났다. 특히 개발 도구 Claude Code에서 긴 작업 세션을 자율적으로 수행하는 에이전트형 동작이 이번 릴리스의 핵심으로 제시됐다.

주요 내용

코딩 벤치마크 선두 — 공개된 수치에 따르면 Opus 4.8은 SWE-Bench Pro에서 69.2%를 기록해 Opus 4.7(64.3%), GPT-5.5(58.6%), Gemini 3.1 Pro(54.2%)를 모두 앞섰다.
에이전트·지식 업무에서 우위 — 컴퓨터 사용(OSWorld-Verified) 83.4%, 지식 업무(GDPval-AA) 1890점, 금융 분석(Finance Agent v2) 53.9% 등에서도 비교 모델 대비 가장 높은 수치를 보였다. 다만 터미널 코딩(Terminal-Bench 2.1)에서는 GPT-5.5가 78.2%로 Opus 4.8(74.6%)을 앞섰다.
Claude Code에서의 자율 수행 — Anthropic은 Opus 4.8이 Claude Code에서 지속적인 확인 없이 경험 많은 엔지니어처럼 도구 호출을 수행하며, 긴 실행 세션에 걸쳐 궤도를 유지한 채 리포지토리 작업을 끝까지 추적한다고 설명했다. 사용자는 기능 구현이나 버그 스윕을 통째로 위임할 수 있다는 것이다.
고속 옵션 'Fast mode' — 한편 안내 페이지에 따르면 Fast mode는 동일한 Opus 수준 지능을 유지하면서 출력 토큰 속도를 2.5배 높인 고속 구성으로(페이지에는 Opus 4.7 기준으로 표기), Claude Code(추가 사용량 활성화 사용자)와 API 대기자 명단을 통해 리서치 프리뷰로 제공된다.

벤치마크 비교

항목	Opus 4.8	Opus 4.7	GPT-5.5	Gemini 3.1 Pro
Agentic coding (SWE-Bench Pro)	69.2%	64.3%	58.6%	54.2%
Agentic terminal coding (Terminal-Bench 2.1)	74.6%	66.1%	78.2%	70.3%
Multidisciplinary reasoning (HLE, no tools)	49.8%	46.9%	41.4%	44.4%
Multidisciplinary reasoning (HLE, with tools)	57.9%	54.7%	52.2%	51.4%
Agentic computer use (OSWorld-Verified)	83.4%	82.8%	78.7%	76.2%
Knowledge work (GDPval-AA)	1890	1753	1769	1314
Agentic financial analysis (Finance Agent v2)	53.9%	51.5%	51.8%	43.0%

해설

이번 릴리스에서 주목할 지점은 개별 벤치마크의 1위 여부보다 '위임 가능성'에 무게가 실렸다는 데 있다. 긴 세션 동안 맥락을 잃지 않고 작업을 끝까지 끌고 가는 능력은 실무에서 체감되는 차이로 이어지기 때문이다. 업계에서는 모델 평가의 기준이 단순 정답률에서 '얼마나 오래, 얼마나 자율적으로 작업을 맡길 수 있는가'로 옮겨가고 있다는 분석이 나온다. 터미널 코딩처럼 일부 항목에서 경쟁 모델이 앞선 점은, 단일 모델이 모든 작업에서 우위를 갖기 어려운 단계에 접어들었음을 시사하는 것으로도 읽힌다.

출처

Fast mode for Claude Opus — Claude
벤치마크 수치: Anthropic 공개 비교표 (Opus 4.8 / Opus 4.7 / GPT-5.5 / Gemini 3.1 Pro)

Claude Opus 4.8 공개, 코딩·에이전트 벤치마크 대부분 1위

주요 내용

벤치마크 비교

해설

출처

댓글 0

다른 일기도 같이.

커뮤니티 마케팅, 디스콰이엇·페북·X

Obsidian 1.13.0 — 검색되는 설정 패널과 URI 보안 강화

SEO·검색 노출, 1인이 가능한 법