AI-agentit epäonnistuvat 97 prosentissa reaalimaailman tehtävistä, osoittavat tutkimukset

AI-agentit epäonnistuvat 97 prosentissa reaalimaailman tehtävistä, osoittavat tutkimukset
Tutkimus osoittaa, että ihmiset ovat edelleen tekoälyä parempia todellisissa työnkuluissa.

Useat viimeaikaiset tutkimukset osoittavat, että tekoälyagentit eivät edelleenkään pysty kilpailemaan ihmisten kanssa, kun on kyse reaalimaailman tehtävien suorittamisesta.

Tämä artikkeli on käännetty alkuperäisestä tekstistä. Lue kirjeenvaihtajamme alkuperäinen versio täältä.

Scale AI:n ja AI Research Centerin tutkimuksen mukaan tekoälyagentit eivät pystyneet suorittamaan 97 prosenttia Upworkin tehtävistä edes perustasolla. Tutkimuksessa testattiin kuutta erilaista tekoälymallia 240 Upwork-projektissa sellaisissa kategorioissa kuin kirjoittaminen, suunnittelu ja data-analyysi ja verrattiin tuloksia oikeiden freelancereiden tuloksiin.

Parhaiten suoriutunut tekoälymalli, Manus, hoiti onnistuneesti vain 2,5 prosenttia tehtävistä ja ansaitsi noin 1 810 dollaria käytettävissä olevasta 143 991 dollarin työmäärästä. Muut mallit, kuten Claude Sonnet ja Grok 4, onnistuivat vain 2,1 prosentissa. Tutkijat päättelivät, että tekoälyagentit kamppailevat monivaiheisten työnkulkujen, aloitteellisuuden ja päätöksenteon kanssa, mikä viittaa siihen, että tekoäly ei korvaa ihmisten työpaikkoja lähiaikoina.

Euroopan yleisradiounionin ja BBC:n erillisessä tutkimuksessa todettiin, että tekoälymallit - kuten ChatGPT, Copilot ja Perplexity - ovat tehottomia uutisoinnissa. Ne eivät täytä keskeisiä journalistisia kriteerejä, kuten lähteiden tarkistamista, tarkkuutta, tekstin tuottamista ja tosiasioiden erottamista mielipiteistä.

Tutkijat löysivät 45 prosentissa tekoälyn tuottamista vastauksista vähintään yhden merkittävän virheen. Vain 31 prosenttia vastauksista arvioitiin oikeiksi, ja 20 prosenttia sisälsi vanhentunutta, harhaanjohtavaa tai väärää tietoa.

Samaan aikaan Freelance.com raportoi, että tekoälyn luomat saatekirjeet heikentävät työnhakuprosessia - johtaen harvempiin palkkauksiin tai vääränlaisiin vastauksiin. Yritys havaitsi myös, että huippuosaavat ammattilaiset (ylin kvintiili) palkataan 19 prosenttia epätodennäköisemmin kuin aiemmin, kun taas matalamman osaamisen hakijat (alin kvintiili) palkataan 14 prosenttia todennäköisemmin.

Ilman ihmisiä maailma tyhjenee

Nämä havainnot ovat yhdenmukaisia elokuussa tehdyn MIT:n tutkimuksen kanssa, jossa todettiin, että 95 prosenttia organisaatioista ei nähnyt tuottoa 30 miljardin dollarin tekoälyinvestoinneilleen.

MIT:n ja Basis Researchin tekemän WorldTest-tutkimuksen mukaan tekoälyagentit pystyvät sovittamaan yhteen kuvioita ja ennustamaan sanoja - mutta niillä on vaikeuksia rakentaa sisäisiä malleja maailmasta.

MIT:n tutkimukseen sisältyi 129 tehtävää 43 vuorovaikutteisessa ympäristössä, joissa tekoälyn piti ennustaa maailman piilotettuja piirteitä, suunnitella toimintojen sarjoja tavoitteiden saavuttamiseksi ja havaita sääntömuutokset. Vertailussa 517 ihmisosallistujaa suoriutui tehtävistä lähes optimaalisesti, kun taas tekoälymallit epäonnistuivat usein.

Tutkijoiden mukaan ihmiset ovat erinomaisia, koska he ymmärtävät intuitiivisesti ympäristöjä, sopeuttavat näkökulmia, kokeilevat, nollaavat ja tutkivat strategisesti. Laskentatehon lisääminen ei auttanut olemassa olevia malleja - se paransi suorituskykyä vain 25:ssä 43 ympäristöstä.

David Sacks, Trumpin hallinnon krypto- ja tekoälypolitiikan neuvonantaja, varoitti myös, että sosiaalisen median ja hakukoneiden sensuuri voi muuttua syvästi dystooppiseksi generatiivisen tekoälyn myötä.

Hän väitti, että termi "woke AI" vähättelee asiaa ja kuvailee sen sijaan "orwellilaista tekoälyä", joka vääristelee vastauksia, valehtelee ja kirjoittaa historiaa uudelleen reaaliajassa vallitsevan poliittisen narratiivin mukaiseksi.

Kuten kirjoitimme, Goldman Sachs: AI-mallit kiihdyttävät autonomisten agenttien valmiuksia

Tämä materiaali saattaa sisältää kolmansien osapuolten mielipiteitä, eikä mikään tällä verkkosivulla oleva tieto tai data muodosta sijoitusneuvontaa Vastuuvapauslausekkeemme mukaisesti. Vaikka noudatamme tiukkaa Toimituksellista Integriteettiä, tämä julkaisu saattaa sisältää viittauksia kumppaneidemme tuotteisiin.