AI 인텔리전스Jul 4, 2026AI 인텔리전스기사UK's AI Security Institute는 표준 벤치마크가 인공지능 에이전트가 실제로 할 수 있는 것을 체계적으로 과소평가한다고 밝혔다.소프트웨어 엔지니어링 작업에서 성공률이 더 많은 컴퓨팅 자원을 사용할 때 약 25% 상승했다.Data Cube AI 편집팀2026. 7. 3.출처: The Decoder01출처 브리프UK's AI Security Institute는 표준 벤치마크가 인공지능 에이전트가 실제로 할 수 있는 것을 체계적으로 과소평가한다고 밝혔다. 소프트웨어 엔지니어링 작업에서 성공률이 더 많은 컴퓨팅 자원을 사용할 때 약 25% 상승했다.02관련 주제연구 & 개발벤치마크인공지능 안전에이전트이슈 보기