Skip to content
AI 인텔리전스Apr 5, 2026AI 인텔리전스
기사

구글 연구에 따르면 표준 AI 벤치마크는 평가에서 인간이 어떻게 의견이 다른지 체계적으로 무시합니다.

테스트 예당 보통 3~5명의 인간 평가자는 종종 신뢰할 수 있는 결과에 대해 불충분합니다.

Data Cube AI 편집팀출처: The Decoder
01

출처 브리프

구글 연구에 따르면 표준 AI 벤치마크는 평가에서 인간이 어떻게 의견이 다른지 체계적으로 무시합니다. 테스트 예당 보통 3~5명의 인간 평가자는 종종 신뢰할 수 있는 결과에 대해 불충분합니다.