AI 에이전트는 실제 작업의 97%를 실패한다는 연구 결과가 나왔습니다
최근의 여러 연구에 따르면 인공지능 에이전트는 실제 작업 수행에 있어서는 여전히 인간과 경쟁하지 못하는 것으로 나타났습니다.
이 기사는 원문을 번역한 것입니다. 당사 특파원이 작성한 원문은 여기에서 확인하실 수 있습니다.
Scale AI와 AI 연구 센터의 연구에 따르면, 인공지능 에이전트는 기본적인 수준에서도 Upwork 작업의 97%를 완료하지 못했습니다 . 이 연구는 글쓰기, 디자인, 데이터 분석 등의 카테고리에서 240개의 Upwork 프로젝트에 대해 6가지 AI 모델을 테스트하여 실제 프리랜서의 작업과 결과를 비교했습니다.
가장 우수한 성과를 보인 AI 모델인 Manus는 2.5%의 작업만 성공적으로 완료하여 총 작업 금액 143,991달러 중 약 1,810달러를 벌었습니다. 클로드 소네트나 그로크 4와 같은 다른 모델은 2.1%만 관리했습니다. 연구자들은 AI 에이전트가 다단계 워크플로우, 주도권, 의사 결정에 어려움을 겪고 있다고 결론을 내렸으며, 이는 AI가 조만간 인간의 일자리를 대체하지 못할 것임을 시사합니다.
유럽 방송 연합과 BBC의 별도 연구에 따르면 ChatGPT, 코파일럿, 퍼플렉시티 등 AI 모델이 뉴스 보도에 효과적이지 않다는 사실이 밝혀졌습니다. 출처 확인, 정확성, 텍스트 생성, 사실과 의견 구분과 같은 주요 저널리즘 기준을 충족하지 못합니다.
연구자들은 AI가 생성한 답변의 45%에서 적어도 한 가지 이상의 중대한 오류를 발견했으며, 31%만이 정답으로 평가되었고 20%는 오래되었거나 오해의 소지가 있거나 잘못된 정보를 포함하고 있었습니다.
한편, Freelance.com은 AI가 생성한 자기소개서가 입사 지원 프로세스를 약화시켜 채용을 줄이거나 잘못된 매칭으로 이어진다고 보고했습니다. 또한 최고 숙련 전문가(상위 5분위)의 채용 가능성은 이전보다 19% 감소한 반면, 저숙련 지원자(하위 5분위)의 채용 가능성은 14% 증가한 것으로 나타났습니다.
사람이 없으면 세상은 공허해집니다
이러한 결과는 지난 8월에 발표된 MIT의 연구 결과와 일치하는 것으로, 조직의 95%가 300억 달러에 달하는 AI 투자에 대한 수익을 얻지 못했다는 결론을 내렸습니다.
MIT와 Basis Research가 실시한 연구인 WorldTest에 따르면, AI 에이전트는 패턴을 일치시키고 단어를 예측할 수는 있지만 세상의 내부 모델을 구축하는 데는 어려움을 겪고 있습니다.
MIT 연구에서는 43개의 대화형 환경에서 129개의 과제를 수행했으며, AI가 세상의 숨겨진 측면을 예측하고, 목표 달성을 위한 일련의 행동을 계획하고, 규칙 변경을 감지하도록 요구했습니다. 이에 비해 517명의 인간 참가자는 거의 최적의 성과를 거둔 반면, AI 모델은 종종 실패했습니다.
연구자들은 인간은 환경을 직관적으로 이해하고, 관점을 조정하고, 실험하고, 재설정하고, 전략적으로 탐색하기 때문에 탁월한 능력을 발휘한다고 말합니다. 계산 능력을 높여도 기존 모델에는 도움이 되지 않았으며 43개 환경 중 25개 환경에서만 성능이 개선되었습니다.
트럼프 행정부의 암호화폐 및 AI 정책 고문인 데이비드 색스도 제너레이티브 AI로 인해 소셜 미디어와 검색 엔진 검열이 심각한 디스토피아적 상황이 될 수 있다고 경고했습니다.
그는 "깨어난 AI"라는 용어는 문제를 과소평가하고 있으며, 대신 지배적인 정치적 내러티브에 맞춰 실시간으로 답을 왜곡하고 거짓말을 하며 역사를 다시 쓰는 "오웰식 AI"를 설명한다고 주장했습니다.
우리가 쓴 것처럼, 골드만 삭스: 자율 에이전트 기능을 가속화하는 AI 모델
최신 business 뉴스
- Forex
- Crypto