Des études révèlent que les agents d'IA échouent à 97 % dans les tâches réelles

Des études révèlent que les agents d'IA échouent à 97 % dans les tâches réelles
Une étude montre que les humains restent plus performants que l'IA dans les flux de travail réels

Plusieurs études récentes révèlent que les agents d'intelligence artificielle ne parviennent toujours pas à rivaliser avec les humains lorsqu'il s'agit d'effectuer des tâches dans le monde réel.

Cet article a été traduit de l'original. Lisez la version originale de notre correspondant ici.

Selon une étude menée par Scale AI et le AI Research Center, les agents d'intelligence artificielle ont été incapables de réaliser 97 % des tâches Upwork, même à un niveau élémentaire. L'étude a testé six modèles d'IA différents sur 240 projets Upwork dans des catégories telles que la rédaction, la conception et l'analyse de données, en comparant les résultats avec ceux de véritables travailleurs indépendants.

Le modèle d'IA le plus performant, Manus, n'a mené à bien que 2,5 % des tâches, gagnant environ 1 810 dollars sur les 143 991 dollars de travail disponible. D'autres modèles, tels que Claude Sonnet et Grok 4, n'ont réussi qu'à accomplir 2,1 % des tâches. Les chercheurs ont conclu que les agents d'IA ont du mal à gérer les flux de travail à plusieurs étapes, à prendre des initiatives et à prendre des décisions, ce qui laisse à penser que l'IA ne remplacera pas les emplois humains de sitôt.

Une autre étude menée par l'Union européenne de radiodiffusion et la BBC a révélé que les modèles d'IA - notamment ChatGPT, Copilot et Perplexity - sont inefficaces dans le domaine des reportages d'actualité. Ils ne répondent pas aux critères journalistiques clés tels que la vérification des sources, l'exactitude, la génération de textes et la distinction entre les faits et les opinions.

Dans 45 % des réponses générées par l'IA, les chercheurs ont trouvé au moins une erreur significative ; seules 31 % des réponses ont été jugées correctes, tandis que 20 % contenaient des informations obsolètes, trompeuses ou fausses.

Par ailleurs, Freelance.com a rapporté que les lettres de motivation générées par l'IA nuisent au processus de candidature, entraînant moins d'embauches ou des correspondances erronées. L'entreprise a également constaté que les professionnels les plus qualifiés (quintile supérieur) ont 19 % de chances en moins d'être embauchés, tandis que les candidats moins qualifiés (quintile inférieur) ont 14 % de chances en plus d'être embauchés.

Sans les humains, le monde se vide

Ces résultats vont dans le sens d'une étude du MIT datant du mois d'août, qui concluait que 95 % des organisations ne voyaient aucun retour sur leurs investissements de 30 milliards de dollars dans l'IA.

Selon WorldTest, une étude menée par le MIT et Basis Research, les agents d'IA peuvent faire correspondre des modèles et prédire des mots, mais peinent à construire des modèles internes du monde.

L'étude du MIT a porté sur 129 tâches dans 43 environnements interactifs, demandant à l'IA de prédire des aspects cachés du monde, de planifier des séquences d'actions pour atteindre des objectifs et de détecter des changements de règles. En comparaison, 517 participants humains ont obtenu des résultats presque optimaux, alors que les modèles d'IA échouaient souvent.

Les chercheurs suggèrent que les humains excellent parce qu'ils comprennent intuitivement les environnements, ajustent les perspectives, expérimentent, réinitialisent et explorent stratégiquement. L'augmentation de la puissance de calcul n'a pas aidé les modèles existants - elle n'a amélioré les performances que dans 25 des 43 environnements.

David Sacks, conseiller politique sur la cryptographie et l'IA auprès de l'administration Trump, a également averti que les médias sociaux et la censure des moteurs de recherche pourraient devenir profondément dystopiques avec l'IA générative.

Il a fait valoir que le terme "woke AI" sous-estime le problème, décrivant plutôt une "IA orwellienne" qui déforme les réponses, ment et réécrit l'histoire en temps réel pour s'aligner sur le récit politique dominant.

Comme nous l'avons écrit, Goldman Sachs : Les modèles d'IA accélèrent les capacités des agents autonomes

Ce matériel peut contenir des opinions de tiers, aucune des données et informations sur cette page web ne constitue un conseil en investissement selon notre Avertissement. Bien que nous respections une stricte Intégrité Éditoriale, ce post peut contenir des références à des produits de nos partenaires.