AI-agenter mislykkes i 97 % av oppgavene i den virkelige verden, viser studier
Flere nyere studier viser at AI-agenter fortsatt ikke klarer å konkurrere med mennesker når det gjelder å utføre oppgaver i den virkelige verden.
Denne artikkelen ble oversatt fra originalen. Les den opprinnelige versjonen av vår korrespondent her.
Ifølge en undersøkelse utført av Scale AI og AI Research Center klarte ikke kunstig intelligens-agenter å fullføre 97 % av Upwork-oppgavene, selv ikke på et grunnleggende nivå. Studien testet seks ulike AI-modeller på tvers av 240 Upwork-prosjekter i kategorier som skriving, design og dataanalyse, og sammenlignet resultatene med resultatene til ekte frilansere.
Den AI-modellen som presterte best, Manus, fullførte bare 2,5 % av oppgavene, og tjente rundt 1 810 dollar av 143 991 dollar i tilgjengelig arbeid. Andre modeller, som Claude Sonnet og Grok 4, klarte bare 2,1 %. Forskerne konkluderte med at AI-agenter sliter med flerstegs arbeidsflyter, initiativ og beslutningstaking, noe som tyder på at AI ikke kommer til å erstatte menneskelige jobber med det første.
En separat studie utført av European Broadcasting Union og BBC fant at AI-modeller - inkludert ChatGPT, Copilot og Perplexity - er ineffektive når det gjelder nyhetsrapportering. De klarer ikke å oppfylle viktige journalistiske kriterier som kildeverifisering, nøyaktighet, tekstgenerering og å skille fakta fra meninger.
I 45 % av de AI-genererte svarene fant forskerne minst én vesentlig feil; bare 31 % av svarene ble vurdert som korrekte, mens 20 % inneholdt utdatert, villedende eller falsk informasjon.
Freelance.com rapporterte at AI-genererte følgebrev undergraver jobbsøknadsprosessen - noe som fører til færre ansettelser eller feilaktige matchinger. Selskapet fant også ut at det er 19 % mindre sannsynlig at toppkvalifiserte fagfolk (øverste kvintil) blir ansatt enn før, mens det er 14 % mer sannsynlig at kandidater med lavere kvalifikasjoner (nederste kvintil) blir ansatt.
Uten mennesker blir verden tom
Disse funnene stemmer overens med en MIT-studie fra august, som konkluderte med at 95 % av organisasjonene ikke så noen avkastning på sine AI-investeringer på 30 milliarder dollar.
Ifølge WorldTest, en studie utført av MIT og Basis Research, kan AI-agenter matche mønstre og forutsi ord - men de sliter med å bygge interne modeller av verden.
MIT-forskningen omfattet 129 oppgaver i 43 interaktive miljøer, der kunstig intelligens ble bedt om å forutsi skjulte aspekter ved verden, planlegge handlingssekvenser for å nå mål og oppdage regelendringer. Til sammenligning presterte 517 menneskelige deltakere nesten optimalt, mens AI-modellene ofte mislyktes.
Forskerne mener at mennesker utmerker seg fordi de intuitivt forstår omgivelsene, justerer perspektiver, eksperimenterer, tilbakestiller og utforsker strategisk. Økt regnekraft hjalp ikke eksisterende modeller - det forbedret ytelsen i bare 25 av 43 miljøer.
David Sacks, politisk rådgiver for krypto og AI under Trump-administrasjonen, advarte også om at sensur av sosiale medier og søkemotorer kan bli dypt dystopisk med generativ AI.
Han hevdet at begrepet "woke AI" underdriver problemet, og beskrev i stedet en "orwellsk AI" som forvrenger svar, lyver og omskriver historien i sanntid for å tilpasse seg det rådende politiske narrativet.
Som vi skrev, Goldman Sachs: AI-modeller øker kapasiteten til autonome agenter
Siste business nyheter
- Forex
- Crypto