Skip to content
AI 인텔리전스Jul 3, 2026AI 인텔리전스
기사

UK AI 보안 연구소는 표준 AI 벤치마크가 계산 예산을 제한함으로써 AI 에이전트의 실제 능력을 체계적으로 과소평가한다고 발견했다.

소프트웨어 엔지니어링 작업에서 에이전트에게 더 많은 컴퓨팅 시간을 주었을 때 성공률이 약 25% 상승했다. 이는 현재 안전 테스트의 타당성에 대한 의문을 제기한다.

Data Cube AI 편집팀출처: The Decoder
01

출처 브리프

UK AI 보안 연구소는 표준 AI 벤치마크가 계산 예산을 제한함으로써 AI 에이전트의 실제 능력을 체계적으로 과소평가한다고 발견했다. 소프트웨어 엔지니어링 작업에서 에이전트에게 더 많은 컴퓨팅 시간을 주었을 때 성공률이 약 25% 상승했다. 이는 현재 안전 테스트의 타당성에 대한 의문을 제기한다.