AI 인텔리전스Apr 5, 2026AI 인텔리전스기사구글 연구에 따르면 표준 AI 벤치마크는 평가에서 인간이 어떻게 의견이 다른지 체계적으로 무시합니다.테스트 예당 보통 3~5명의 인간 평가자는 종종 신뢰할 수 있는 결과에 대해 불충분합니다.Data Cube AI 편집팀2026. 4. 5.출처: The Decoder01출처 브리프구글 연구에 따르면 표준 AI 벤치마크는 평가에서 인간이 어떻게 의견이 다른지 체계적으로 무시합니다. 테스트 예당 보통 3~5명의 인간 평가자는 종종 신뢰할 수 있는 결과에 대해 불충분합니다.02관련 주제연구 및 개발연구벤치마킹구글이슈 보기