Studier visar att AI-agenter misslyckas med 97 % av alla uppgifter i den verkliga världen

Studier visar att AI-agenter misslyckas med 97 % av alla uppgifter i den verkliga världen
Forskning visar att människor fortfarande överträffar AI i verkliga arbetsflöden

Flera nya studier visar att AI-agenter fortfarande inte kan konkurrera med människor när det gäller att utföra verkliga uppgifter.

Denna artikel har översatts från originalet. Läs originalversionen av vår korrespondent här.

Enligt forskning från Scale AI och AI Research Center kunde agenter för artificiell intelligens inte slutföra 97% av Upwork-uppgifterna ens på en grundläggande nivå. I studien testades sex olika AI-modeller i 240 Upwork-projekt i kategorier som skrivande, design och dataanalys, och resultaten jämfördes med riktiga frilansare.

Den bäst presterande AI-modellen, Manus, slutförde framgångsrikt endast 2,5% av uppgifterna och tjänade cirka 1 810 dollar av 143 991 dollar i tillgängligt arbete. Andra modeller, som Claude Sonnet och Grok 4, lyckades bara med 2,1%. Forskarna drog slutsatsen att AI-agenter kämpar med flerstegs arbetsflöden, initiativ och beslutsfattande, vilket tyder på att AI inte kommer att ersätta mänskliga jobb inom en snar framtid.

I en separat studie från European Broadcasting Union och BBC konstaterades att AI-modeller - inklusive ChatGPT, Copilot och Perplexity - är ineffektiva när det gäller nyhetsrapportering. De klarar inte av att uppfylla viktiga journalistiska kriterier som källkontroll, noggrannhet, textgenerering och att skilja fakta från åsikter.

I 45% av de AI-genererade svaren hittade forskarna minst ett betydande fel; endast 31% av svaren bedömdes som korrekta, medan 20% innehöll föråldrad, vilseledande eller falsk information.

Samtidigt rapporterade Freelance.com att AI-genererade följebrev undergräver jobbansökningsprocessen - vilket leder till färre anställningar eller felaktiga matchningar. Företaget fann också att högkvalificerade yrkesverksamma (övre kvintilen) är 19% mindre benägna att anställas än tidigare, medan lågkvalificerade kandidater (nedre kvintilen) är 14% mer benägna att anställas.

Utan människor blir världen tom

Dessa resultat överensstämmer med en MIT-studie från augusti, där man drog slutsatsen att 95% av organisationerna inte såg någon avkastning på sina AI-investeringar på 30 miljarder dollar.

Enligt WorldTest, en studie som genomfördes av MIT och Basis Research, kan AI-agenter matcha mönster och förutsäga ord - men kämpar för att bygga interna modeller av världen.

I MIT-studien ingick 129 uppgifter i 43 interaktiva miljöer, där AI-agenterna fick förutsäga dolda aspekter av världen, planera sekvenser av åtgärder för att nå mål och upptäcka regeländringar. I jämförelse presterade 517 mänskliga deltagare nästan optimalt, medan AI-modellerna ofta misslyckades.

Forskarna menar att människor utmärker sig eftersom de intuitivt förstår miljöer, justerar perspektiv, experimenterar, återställer och utforskar strategiskt. Ökad beräkningskraft hjälpte inte befintliga modeller - det förbättrade prestandan i endast 25 av 43 miljöer.

David Sacks, policyrådgivare för krypto och AI under Trump-administrationen, varnade också för att censur av sociala medier och sökmotorer kan bli djupt dystopisk med generativ AI.

Han menade att termen "woke AI" underskattar problemet och beskrev istället en "orwellsk AI" som förvränger svar, ljuger och skriver om historien i realtid för att anpassa sig till den rådande politiska berättelsen.

Som vi skrev, Goldman Sachs: AI-modeller påskyndar autonoma agenters kapacitet

Detta material kan innehålla åsikter från tredje part, ingen av uppgifterna och informationen på denna webbsida utgör investeringsrådgivning enligt vår Ansvarsfriskrivning. Även om vi följer strikt Redaktionell Integritet, kan detta inlägg innehålla referenser till produkter från våra partners.