AI-agenten falen in 97% van de echte taken, blijkt uit onderzoek

AI-agenten falen in 97% van de echte taken, blijkt uit onderzoek
Onderzoek toont aan dat mensen nog steeds beter presteren dan AI in echte workflows

Verschillende recente onderzoeken tonen aan dat AI-agenten nog steeds niet kunnen concurreren met mensen als het aankomt op het uitvoeren van echte taken.

Dit artikel is vertaald vanuit het origineel. Lees de originele versie van onze correspondent hier.

Volgens onderzoek van Scale AI en het AI Research Center waren kunstmatige intelligentie agenten niet in staat om 97% van de Upwork taken uit te voeren, zelfs niet op basisniveau. In het onderzoek werden zes verschillende AI-modellen getest op 240 Upwork-projecten in categorieën zoals schrijven, ontwerpen en gegevensanalyse, waarbij de resultaten werden vergeleken met die van echte freelancers.

Het best presterende AI-model, Manus, voltooide slechts 2,5% van de taken en verdiende daarmee ongeveer $1.810 van de $143.991 aan beschikbaar werk. Andere modellen, zoals Claude Sonnet en Grok 4, slaagden slechts in 2,1%. Onderzoekers concludeerden dat AI-agenten moeite hebben met werkstromen in meerdere stappen, initiatief en besluitvorming, wat suggereert dat AI menselijke banen niet snel zal vervangen.

Uit een apart onderzoek van de European Broadcasting Union en de BBC bleek dat AI-modellen - waaronder ChatGPT, Copilot en Perplexity - niet effectief zijn in nieuwsverslaggeving. Ze voldoen niet aan belangrijke journalistieke criteria zoals bronverificatie, nauwkeurigheid, tekstgeneratie en het onderscheiden van feiten en meningen.

In 45% van de door AI gegenereerde antwoorden vonden onderzoekers ten minste één significante fout; slechts 31% van de antwoorden werd als correct beoordeeld, terwijl 20% verouderde, misleidende of onjuiste informatie bevatte.

Ondertussen meldde Freelance.com dat AI-gegenereerde sollicitatiebrieven het sollicitatieproces ondermijnen - wat leidt tot minder aanwervingen of verkeerd afgestemde matches. Het bedrijf ontdekte ook dat hoogopgeleide professionals (bovenste kwintiel) 19% minder kans hebben om aangenomen te worden dan voorheen, terwijl laagopgeleide kandidaten (onderste kwintiel) 14% meer kans hebben om aangenomen te worden.

Zonder mensen wordt de wereld leeg

Deze bevindingen komen overeen met een MIT-onderzoek uit augustus, waarin werd geconcludeerd dat 95% van de organisaties geen rendement zag op hun investeringen in AI ter waarde van 30 miljard dollar.

Volgens WorldTest, een onderzoek uitgevoerd door MIT en Basis Research, kunnen AI-agenten patronen matchen en woorden voorspellen, maar hebben ze moeite om interne modellen van de wereld te bouwen.

Het MIT-onderzoek omvatte 129 taken in 43 interactieve omgevingen, waarbij de AI verborgen aspecten van de wereld moest voorspellen, acties moest plannen om doelen te bereiken en regelwijzigingen moest detecteren. Ter vergelijking: 517 menselijke deelnemers presteerden bijna optimaal, terwijl AI-modellen vaak faalden.

Onderzoekers suggereren dat mensen uitblinken omdat ze intuïtief omgevingen begrijpen, perspectieven aanpassen, experimenteren, resetten en strategisch verkennen. Het vergroten van de rekenkracht hielp de bestaande modellen niet - het verbeterde de prestaties in slechts 25 van de 43 omgevingen.

David Sacks, beleidsadviseur voor crypto en AI onder de regering Trump, waarschuwde ook dat censuur op sociale media en zoekmachines met generatieve AI zeer dystopisch zou kunnen worden.

Hij stelde dat de term "woke AI" het probleem onderschat en beschreef in plaats daarvan een "Orwelliaanse AI" die antwoorden vervormt, liegt en de geschiedenis in realtime herschrijft om zich aan te passen aan het heersende politieke verhaal.

Zoals we schreven, Goldman Sachs: AI-modellen versnellen autonome agentcapaciteiten

Dit materiaal kan meningen van derden bevatten, geen van de gegevens en informatie op deze webpagina vormt beleggingsadvies volgens onze Disclaimer. Hoewel we ons houden aan strikte Redactionele Integriteit, kan deze post verwijzingen bevatten naar producten van onze partners.