Os agentes de IA falham em 97% das tarefas do mundo real, segundo estudos

Os agentes de IA falham em 97% das tarefas do mundo real, segundo estudos
Pesquisa mostra que os humanos ainda superam a IA em fluxos de trabalho reais

Vários estudos recentes revelam que os agentes de IA ainda não conseguem competir com os humanos quando se trata de realizar tarefas do mundo real.

Este artigo foi traduzido do original. Leia a versão original do nosso correspondente aqui.

De acordo com a pesquisa da Scale AI e do AI Research Center, os agentes de inteligência artificial não conseguiram concluir 97% das tarefas do Upwork, mesmo em um nível básico. O estudo testou seis modelos diferentes de IA em 240 projetos do Upwork em categorias como redação, design e análise de dados, comparando os resultados com os de freelancers reais.

O modelo de IA com melhor desempenho, Manus, concluiu com êxito apenas 2,5% das tarefas, ganhando cerca de US$ 1.810 de um total de US$ 143.991 em trabalho disponível. Outros modelos, como o Claude Sonnet e o Grok 4, conseguiram apenas 2,1%. Os pesquisadores concluíram que os agentes de IA têm dificuldades com fluxos de trabalho de várias etapas, iniciativa e tomada de decisões, o que sugere que a IA não substituirá os empregos humanos tão cedo.

Um estudo separado realizado pela União Europeia de Radiodifusão e pela BBC constatou que os modelos de IA - incluindo ChatGPT, Copilot e Perplexity - são ineficazes em reportagens de notícias. Eles não conseguem atender aos principais critérios jornalísticos, como verificação da fonte, precisão, geração de texto e distinção entre fato e opinião.

Em 45% das respostas geradas por IA, os pesquisadores encontraram pelo menos um erro significativo; apenas 31% das respostas foram classificadas como corretas, enquanto 20% continham informações desatualizadas, enganosas ou falsas.

Enquanto isso, o Freelance.com informou que as cartas de apresentação geradas por IA estão prejudicando o processo de candidatura a empregos, o que leva a menos contratações ou a correspondências desalinhadas. A empresa também descobriu que os profissionais mais qualificados (quintil superior) têm 19% menos chances de serem contratados do que antes, enquanto os candidatos menos qualificados (quintil inferior) têm 14% mais chances de serem contratados.

Sem humanos, o mundo fica vazio

Essas descobertas são consistentes com um estudo do MIT de agosto, que concluiu que 95% das organizações não viram nenhum retorno sobre seus investimentos de US$ 30 bilhões em IA.

De acordo com o WorldTest, um estudo realizado pelo MIT e pela Basis Research, os agentes de IA podem combinar padrões e prever palavras, mas têm dificuldade para criar modelos internos do mundo.

A pesquisa do MIT envolveu 129 tarefas em 43 ambientes interativos, exigindo que a IA previsse aspectos ocultos do mundo, planejasse sequências de ações para atingir metas e detectasse mudanças de regras. Em comparação, 517 participantes humanos tiveram um desempenho quase ideal, enquanto os modelos de IA frequentemente falhavam.

Os pesquisadores sugerem que os humanos se destacam porque compreendem intuitivamente os ambientes, ajustam as perspectivas, experimentam, redefinem e exploram estrategicamente. O aumento do poder computacional não ajudou os modelos existentes - melhorou o desempenho em apenas 25 dos 43 ambientes.

David Sacks, consultor de políticas de criptografia e IA do governo Trump, também alertou que a censura nas mídias sociais e nos mecanismos de busca poderia se tornar profundamente distópica com a IA generativa.

Ele argumentou que o termo "IA acordada" subestima a questão, descrevendo, em vez disso, uma "IA orwelliana" que distorce respostas, mente e reescreve a história em tempo real para se alinhar à narrativa política predominante.

Como escrevemos, Goldman Sachs: Modelos de IA aceleram os recursos de agentes autônomos

Este material pode conter opiniões de terceiros, nenhum dos dados e informações nesta página constitui aconselhamento de investimento de acordo com o nosso Aviso Legal. Embora sigamos rigorosos Padrões Editoriais, este post pode conter referências a produtos de nossos parceiros.