인공지능(AI) 모델 성능이 급격히 발전하면서 기존 잣대가 한계에 부딪혔다는 지적이 나오자 벤치마크 자체도 세대교체 국면에 들어섰다. 에이전트 시대에 걸맞게 추상적 문제 풀이보다 ..