빅테크, AI 사용량 순위제 폐지로 평가 기준 전환

빅테크, AI 사용량 순위제 폐지로 평가 기준 전환
빅테크 AI 평가 전환

생성형 AI 도입이 기업 전반으로 확산하면서 빅테크의 내부 성과관리 방식도 토큰 사용량 중심에서 실제 업무 기여도 중심으로 바뀌고 있다. Amazon, Meta, Uber 등은 과도한 토큰 소비가 컴퓨팅 비용 급증으로 이어지는 부작용이 드러나자 기존 사용량 순위제를 잇달아 중단하고 있다.

하이라이트

  • Amazon, Meta, Uber 등 빅테크 기업들이 AI 토큰 사용량에 기반한 평가제를 폐지하며 비용 부담과 비효율성을 드러냈다.
  • Uber는 AI 코딩 서비스로 인한 토큰 비용 증가로 연간 AI 예산을 4개월 만에 소진했다.
  • Salesforce는 토큰 수 대신 실제 업무량을 측정하는 'Agent Work Unit' 도입 등 AI 도구 평가 기준을 생산성 중심으로 전환하고 있다.

토큰 경쟁 부작용과 평가체계 재편

SeDaily 보도에 따르면 Amazon은 AI 코드 생성 도구 'Kiro' 사용량을 기준으로 직원들을 평가하던 'Kiro Rank' 제도를 폐지했다.

직원들이 평가 점수를 높이기 위해 AI에 불필요한 작업까지 지시하면서 컴퓨팅 비용이 빠르게 불어났기 때문이다. Amazon의 엔지니어링 담당 수석부사장 Dave Treadwell은 선의로 만든 리더보드였지만 부풀려진 토큰 사용량이 비용 부담을 키웠다고 설명했다.

Meta도 8만5,000명의 직원 토큰 사용량을 추적하던 'Claudenomics'를 중단했다. Uber 역시 AI 코딩 서비스에 들어간 토큰 비용 탓에 연간 AI 예산을 4개월 만에 소진한 것으로 전해진다.

이 같은 흐름 속에서 Salesforce는 토큰 수가 아니라 AI 에이전트가 실제로 처리한 업무량을 측정하는 'Agent Work Unit', AWU 개념을 제시하고 있다. 업계 전반에서 AI 활용 평가 기준이 사용량 경쟁에서 생산성 중심으로 재편되는 양상이다.

비용 통제와 기업 운영에 미치는 영향

이번 변화는 기업들이 생성형 AI 확산 초기의 실험 단계를 지나 투자 효율성과 운영 통제를 더 중시하고 있음을 보여준다.

토큰 사용량을 단순 지표로 삼을 경우 직원 행동이 왜곡되고, 실제 성과와 무관한 비용만 커질 수 있다는 점이 드러나면서 기업들은 측정 체계를 다시 설계하고 있다. 특히 대규모 인력을 보유한 빅테크일수록 작은 사용 행태 변화도 전체 인프라 비용에 큰 영향을 줄 수 있어 관리 기준 조정이 더 중요해지고 있다.

이런 재편은 AI 도구의 사내 확산 속도를 늦추기보다는 도입 방식을 더 정교하게 만드는 방향으로 이어지고 있다. 앞으로는 얼마나 많이 썼는지가 아니라 실제 코드 작성, 업무 자동화, 시간 절감 등 구체적 성과를 입증할 수 있는지가 핵심 지표로 자리 잡을 가능성이 커지고 있다.

저희가 이전 기사에서 다룬 Anthropic의 기업용 AI 확장과 인프라 협력은 Claude를 중심으로 코딩 자동화 수요가 급증하면서 연산 자원과 데이터센터 투자가 경쟁의 핵심으로 이동하고 있음을 짚었습니다. 삼성전자·SK hynix·Micron 등 메모리 업체의 전략적 참여가 HBM/DRAM 수요 확대와 비용 효율화 압박으로 이어질 수 있다는 점도 함께 조명했습니다.

이 자료는 제3자의 의견을 포함할 수 있으며, 이 웹페이지의 데이터 및 정보는 우리의 면책 조항에 따라 투자 조언을 구성하지 않습니다. 우리는 엄격한 편집 무결성을 준수하지만, 이 게시물에는 파트너의 제품에 대한 언급이 포함될 수 있습니다.