AI-agenter fejler 97% af opgaverne i den virkelige verden, viser undersøgelser

AI-agenter fejler 97% af opgaverne i den virkelige verden, viser undersøgelser
Forskning viser, at mennesker stadig klarer sig bedre end AI i virkelige arbejdsgange

Flere nylige undersøgelser viser, at AI-agenter stadig ikke kan konkurrere med mennesker, når det gælder om at udføre opgaver i den virkelige verden.

Denne artikel er oversat fra originalen. Læs den oprindelige version af vores korrespondent her.

Ifølge undersøgelser foretaget af Scale AI og AI Research Center var kunstige intelligensagenter ikke i stand til at udføre 97 % af Upwork-opgaverne, selv på et grundlæggende niveau. Undersøgelsen testede seks forskellige AI-modeller på tværs af 240 Upwork-projekter i kategorier som skrivning, design og dataanalyse og sammenlignede resultaterne med dem fra rigtige freelancere.

Den bedst præsterende AI-model, Manus, gennemførte kun 2,5 % af opgaverne og tjente omkring 1.810 dollars ud af 143.991 dollars i tilgængeligt arbejde. Andre modeller, som Claude Sonnet og Grok 4, klarede kun 2,1 %. Forskerne konkluderede, at AI-agenter kæmper med arbejdsgange i flere trin, initiativ og beslutningstagning, hvilket tyder på, at AI ikke vil erstatte menneskelige job lige foreløbig.

En separat undersøgelse foretaget af European Broadcasting Union og BBC viste, at AI-modeller - herunder ChatGPT, Copilot og Perplexity - er ineffektive i forbindelse med nyhedsrapportering. De opfylder ikke vigtige journalistiske kriterier som kildeverifikation, nøjagtighed, tekstgenerering og skelnen mellem fakta og meninger.

I 45 % af de AI-genererede svar fandt forskerne mindst én væsentlig fejl; kun 31 % af svarene blev vurderet som korrekte, mens 20 % indeholdt forældede, vildledende eller falske oplysninger.

I mellemtiden rapporterede Freelance.com, at AI-genererede følgebreve underminerer jobansøgningsprocessen - og fører til færre ansættelser eller forkerte match. Virksomheden fandt også ud af, at topkvalificerede fagfolk (øverste kvintil) har 19 % mindre sandsynlighed for at blive ansat end tidligere, mens lavere kvalificerede kandidater (nederste kvintil) har 14 % større sandsynlighed for at blive ansat.

Uden mennesker bliver verden tom

Disse resultater stemmer overens med en MIT-undersøgelse fra august, som konkluderede, at 95 % af organisationerne ikke så noget afkast af deres AI-investeringer på 30 milliarder dollars.

Ifølge WorldTest, en undersøgelse udført af MIT og Basis Research, kan AI-agenter matche mønstre og forudsige ord - men de har svært ved at opbygge interne modeller af verden.

MIT-undersøgelsen omfattede 129 opgaver i 43 interaktive miljøer, hvor AI skulle forudsige skjulte aspekter af verden, planlægge sekvenser af handlinger for at nå mål og opdage regelændringer. Til sammenligning klarede 517 menneskelige deltagere sig næsten optimalt, mens AI-modellerne ofte fejlede.

Forskerne foreslår, at mennesker udmærker sig, fordi de intuitivt forstår miljøer, justerer perspektiver, eksperimenterer, nulstiller og udforsker strategisk. Øget regnekraft hjalp ikke de eksisterende modeller - det forbedrede kun præstationerne i 25 ud af 43 miljøer.

David Sacks, politisk rådgiver om krypto og AI under Trump-administrationen, advarede også om, at censur af sociale medier og søgemaskiner kan blive dybt dystopisk med generativ AI.

Han hævdede, at udtrykket "woke AI" underdriver problemet og i stedet beskriver en "orwellsk AI", der fordrejer svar, lyver og omskriver historien i realtid for at tilpasse sig den fremherskende politiske fortælling.

Som vi skrev, Goldman Sachs: AI-modeller fremskynder autonome agenters evner

Dette materiale kan indeholde tredjepartsmeninger, ingen af dataene og oplysningerne på denne webside udgør investeringsrådgivning i henhold til vores Ansvarsfraskrivelse. Selvom vi overholder strenge Redaktionelle Retningslinjer, kan dette indlæg indeholde referencer til produkter fra vores partnere.