A tanulmányok szerint az AI-ügynökök a valós feladatok 97%-ánál kudarcot vallanak

A tanulmányok szerint az AI-ügynökök a valós feladatok 97%-ánál kudarcot vallanak
A kutatás szerint az emberek még mindig jobb teljesítményt nyújtanak az AI-nál a valós munkafolyamatokban

Számos közelmúltbeli tanulmány rámutat, hogy a mesterséges intelligencia-ügynökök még mindig nem képesek felvenni a versenyt az emberekkel, amikor valós feladatok elvégzéséről van szó.

Ezt a cikket az eredetiből fordítottuk. Olvassa el tudósítónk eredeti változatát itt.

A Scale AI és az AI Research Center kutatása szerint a mesterséges intelligencia-ügynökök még alapszinten sem voltak képesek az Upwork-feladatok 97%-át elvégezni. A tanulmány hat különböző AI-modellt tesztelt 240 Upwork-projektben olyan kategóriákban, mint az írás, a tervezés és az adatelemzés, és az eredményeket valódi szabadúszók eredményeivel hasonlította össze.

A legjobban teljesítő AI-modell, a Manus a feladatok mindössze 2,5%-át teljesítette sikeresen, és a 143 991 dollárnyi elérhető munkából körülbelül 1810 dollárt keresett. Más modellek, például a Claude Sonnet és a Grok 4 csak 2,1%-ot értek el. A kutatók arra a következtetésre jutottak, hogy a mesterséges intelligencia-ügynökök küzdenek a többlépcsős munkafolyamatokkal, a kezdeményezőkészséggel és a döntéshozatallal, ami arra utal, hogy a mesterséges intelligencia nem fogja egyhamar helyettesíteni az emberi munkákat.

Az Európai Műsorszolgáltatók Szövetsége és a BBC külön tanulmánya megállapította, hogy az AI modellek - köztük a ChatGPT, a Copilot és a Perplexity - hatástalanok a híradósításban. Nem felelnek meg az olyan kulcsfontosságú újságírói kritériumoknak, mint a forrásellenőrzés, a pontosság, a szöveggenerálás és a tények megkülönböztetése a véleménytől.

Az AI által generált válaszok 45%-ában a kutatók legalább egy jelentős hibát találtak; a válaszok mindössze 31%-át értékelték helyesnek, míg 20%-uk elavult, félrevezető vagy hamis információt tartalmazott.

Eközben a Freelance.com arról számolt be, hogy az AI által generált kísérőlevelek aláássák az álláspályázati folyamatot - kevesebb felvételhez vagy rosszul eltalált találatokhoz vezetnek. A vállalat azt is megállapította, hogy a magasan képzett szakembereket (felső kvintilis) 19%-kal kisebb valószínűséggel veszik fel, mint korábban, míg az alacsonyabb képzettségű jelölteket (alsó kvintilis) 14%-kal nagyobb valószínűséggel veszik fel.

Emberek nélkül a világ kiürül

Ezek az eredmények összhangban vannak az MIT augusztusi tanulmányával, amely arra a következtetésre jutott, hogy a szervezetek 95%-a nem látta megtérülni a 30 milliárd dolláros mesterséges intelligencia-befektetéseit.

A WorldTest, az MIT és a Basis Research által végzett tanulmány szerint az AI-ügynökök képesek megfeleltetni a mintákat és megjósolni a szavakat - de nehezen tudnak belső modelleket építeni a világról.

Az MIT kutatása során 43 interaktív környezetben 129 feladatot vizsgáltak, amelyekben az AI-nak a világ rejtett aspektusait kellett megjósolnia, a célok eléréséhez szükséges cselekvéssorozatokat megterveznie és a szabályváltozásokat észlelnie. Összehasonlításképpen 517 emberi résztvevő közel optimálisan teljesített, míg az AI-modellek gyakran kudarcot vallottak.

A kutatók szerint az emberek azért jeleskednek, mert intuitív módon megértik a környezetet, kiigazítják a perspektívákat, kísérleteznek, újraindítanak és stratégiailag felfedeznek. A számítási teljesítmény növelése nem segített a meglévő modelleken - 43 környezetből csak 25-ben javította a teljesítményt.

David Sacks, a Trump-kormányzat kripto- és mesterséges intelligenciával foglalkozó politikai tanácsadója arra is figyelmeztetett, hogy a közösségi média és a keresőmotorok cenzúrája a generatív mesterséges intelligenciával mélyen disztópiává válhat.

Úgy vélte, hogy az "éber mesterséges intelligencia" kifejezés alábecsüli a problémát, és inkább egy "orwelli mesterséges intelligenciát" ír le, amely valós időben torzítja a válaszokat, hazudik és átírja a történelmet, hogy igazodjon az uralkodó politikai narratívához.

Mint írtuk, a Goldman Sachs: AI modellek felgyorsítják az autonóm ügynöki képességeket

Ez az anyag harmadik felek véleményét tartalmazhatja, a weboldalon található adatok és információk egyike sem minősül befektetési tanácsnak a Jogi nyilatkozatunk szerint. Bár szigorú Szerkesztői Integritást követünk, ez a bejegyzés tartalmazhat hivatkozásokat partnereink termékeire.