AIインテリジェンスApr 5, 2026AIインテリジェンス記事Googleの研究によると、標準的なAIベンチマークは、評価における人間の意見の相違を系統的に無視しています。テスト例ごとの通常の3〜5人の人間評価者では、信頼できる結果を得るには不十分なことが多いです。Data Cube AI 編集部2026/04/05出典: The Decoder01ソース要約Googleの研究によると、標準的なAIベンチマークは、評価における人間の意見の相違を系統的に無視しています。テスト例ごとの通常の3〜5人の人間評価者では、信頼できる結果を得るには不十分なことが多いです。02関連トピック研究と開発研究ベンチマーキングGoogle号を見る