Uuringud näitavad, et 97% tehisintellektiagentidest ebaõnnestub reaalsetes ülesannetes
Mitmed hiljutised uuringud näitavad, et tehisintellekti agendid ei suuda ikka veel konkureerida inimestega, kui tegemist on reaalsete ülesannete täitmisega.
See artikkel on tõlgitud originaalist. Lugege meie korrespondendi algset versiooni siit.
Scale AI ja AI Research Center'i uuringu kohaselt ei suutnud tehisintellekti agendid täita 97% Upworki ülesannetest isegi algtasemel. Uuringus testiti kuut erinevat tehisintellekti mudelit 240 Upworki projektis sellistes kategooriates nagu kirjutamine, disain ja andmeanalüüs, võrreldes tulemusi reaalsete vabakutseliste töötajatega.
Kõige paremini toimiv tehisintellekti mudel Manus lõpetas edukalt vaid 2,5% ülesannetest, teenides umbes 1810 dollarit 143 991 dollarist saadaolevast tööst. Teised mudelid, nagu Claude Sonnet ja Grok 4, said hakkama vaid 2,1% ulatuses. Teadlased jõudsid järeldusele, et tehisintellekti agentidel on raskusi mitmeastmeliste töövoogude, algatusvõime ja otsuste tegemisega, mis viitab sellele, et tehisintellekt ei asenda inimtööd niipea.
Euroopa Ringhäälingute Liidu ja BBC eraldi uuringus leiti, et tehisintellekti mudelid - sealhulgas ChatGPT, Copilot ja Perplexity - on uudiste kajastamisel ebaefektiivsed . Nad ei vasta peamistele ajakirjanduslikele kriteeriumidele, nagu allikate kontrollimine, täpsus, teksti genereerimine ja faktide eristamine arvamusest.
Teadlased leidsid 45% tehisintellekti loodud vastustest vähemalt ühe olulise vea; ainult 31% vastustest hinnati õigeks, samas kui 20% sisaldas vananenud, eksitavat või valeinfot.
Samal ajal teatas Freelance.com, et tehisintellekti abil genereeritud kaaskirjad õõnestavad kandideerimisprotsessi - see toob kaasa vähem värbamisi või valesti sobivaid vasteid. Ettevõte leidis ka, et kõrgeima kvalifikatsiooniga spetsialistid (ülemine kvintiil) võetakse tööle 19% väiksema tõenäosusega kui varem, samas kui madalama kvalifikatsiooniga kandidaadid (alumine kvintiil) võetakse tööle 14% suurema tõenäosusega.
Ilma inimesteta muutub maailm tühjaks
Need tulemused on kooskõlas augustis läbi viidud MIT uuringuga, milles jõuti järeldusele, et 95% organisatsioonidest ei näinud oma 30 miljardi dollari suuruse tehisintellekti investeeringu tasuvust.
MIT ja Basis Researchi poolt läbi viidud uuringu WorldTest kohaselt suudavad AI-agendid sobitada mustreid ja ennustada sõnu - kuid neil on raskusi maailma sisemiste mudelite loomisega.
MIT uuring hõlmas 129 ülesannet 43 interaktiivses keskkonnas, mis nõudsid AI-lt maailma varjatud aspektide ennustamist, eesmärkide saavutamiseks vajalike tegevuste kavandamist ja reeglite muutuste tuvastamist. Võrdluseks 517 inimosalejat sooritasid peaaegu optimaalselt, samas kui tehisintellekti mudelid sageli ebaõnnestusid.
Teadlased oletavad, et inimesed on paremad, sest nad mõistavad intuitiivselt keskkondi, kohandavad vaatenurki, katsetavad, nullivad ja uurivad strateegiliselt. Arvutusvõimsuse suurendamine ei aidanud olemasolevaid mudeleid - see parandas tulemuslikkust vaid 25 keskkonnas 43-st.
Trumpi administratsiooni krüpto- ja tehisintellekti poliitikakonsultant David Sacks hoiatas samuti, et sotsiaalmeedia ja otsingumootorite tsensuur võib muutuda generatiivse tehisintellekti abil sügavalt düstoopiliseks.
Ta väitis, et termin "äratatud tehisintellektuaali" alahindab probleemi, kirjeldades hoopis "orwellilikku tehisintellekti", mis moonutab vastuseid, valetab ja kirjutab ajalugu reaalajas ümber, et viia see vastavusse valitseva poliitilise narratiiviga.
Nagu me kirjutasime, Goldman Sachs: AI-mudelid kiirendavad autonoomsete agentide võimekust
- Forex
- Crypto