A tanulmányok szerint az AI-ügynökök a valós feladatok 97%-ánál kudarcot vallanak
Számos közelmúltbeli tanulmány rámutat, hogy a mesterséges intelligencia-ügynökök még mindig nem képesek felvenni a versenyt az emberekkel, amikor valós feladatok elvégzéséről van szó.
Ezt a cikket az eredetiből fordítottuk. Olvassa el tudósítónk eredeti változatát itt.
A Scale AI és az AI Research Center kutatása szerint a mesterséges intelligencia-ügynökök még alapszinten sem voltak képesek az Upwork-feladatok 97%-át elvégezni. A tanulmány hat különböző AI-modellt tesztelt 240 Upwork-projektben olyan kategóriákban, mint az írás, a tervezés és az adatelemzés, és az eredményeket valódi szabadúszók eredményeivel hasonlította össze.
A legjobban teljesítő AI-modell, a Manus a feladatok mindössze 2,5%-át teljesítette sikeresen, és a 143 991 dollárnyi elérhető munkából körülbelül 1810 dollárt keresett. Más modellek, például a Claude Sonnet és a Grok 4 csak 2,1%-ot értek el. A kutatók arra a következtetésre jutottak, hogy a mesterséges intelligencia-ügynökök küzdenek a többlépcsős munkafolyamatokkal, a kezdeményezőkészséggel és a döntéshozatallal, ami arra utal, hogy a mesterséges intelligencia nem fogja egyhamar helyettesíteni az emberi munkákat.
Az Európai Műsorszolgáltatók Szövetsége és a BBC külön tanulmánya megállapította, hogy az AI modellek - köztük a ChatGPT, a Copilot és a Perplexity - hatástalanok a híradósításban. Nem felelnek meg az olyan kulcsfontosságú újságírói kritériumoknak, mint a forrásellenőrzés, a pontosság, a szöveggenerálás és a tények megkülönböztetése a véleménytől.
Az AI által generált válaszok 45%-ában a kutatók legalább egy jelentős hibát találtak; a válaszok mindössze 31%-át értékelték helyesnek, míg 20%-uk elavult, félrevezető vagy hamis információt tartalmazott.
Eközben a Freelance.com arról számolt be, hogy az AI által generált kísérőlevelek aláássák az álláspályázati folyamatot - kevesebb felvételhez vagy rosszul eltalált találatokhoz vezetnek. A vállalat azt is megállapította, hogy a magasan képzett szakembereket (felső kvintilis) 19%-kal kisebb valószínűséggel veszik fel, mint korábban, míg az alacsonyabb képzettségű jelölteket (alsó kvintilis) 14%-kal nagyobb valószínűséggel veszik fel.
Emberek nélkül a világ kiürül
Ezek az eredmények összhangban vannak az MIT augusztusi tanulmányával, amely arra a következtetésre jutott, hogy a szervezetek 95%-a nem látta megtérülni a 30 milliárd dolláros mesterséges intelligencia-befektetéseit.
A WorldTest, az MIT és a Basis Research által végzett tanulmány szerint az AI-ügynökök képesek megfeleltetni a mintákat és megjósolni a szavakat - de nehezen tudnak belső modelleket építeni a világról.
Az MIT kutatása során 43 interaktív környezetben 129 feladatot vizsgáltak, amelyekben az AI-nak a világ rejtett aspektusait kellett megjósolnia, a célok eléréséhez szükséges cselekvéssorozatokat megterveznie és a szabályváltozásokat észlelnie. Összehasonlításképpen 517 emberi résztvevő közel optimálisan teljesített, míg az AI-modellek gyakran kudarcot vallottak.
A kutatók szerint az emberek azért jeleskednek, mert intuitív módon megértik a környezetet, kiigazítják a perspektívákat, kísérleteznek, újraindítanak és stratégiailag felfedeznek. A számítási teljesítmény növelése nem segített a meglévő modelleken - 43 környezetből csak 25-ben javította a teljesítményt.
David Sacks, a Trump-kormányzat kripto- és mesterséges intelligenciával foglalkozó politikai tanácsadója arra is figyelmeztetett, hogy a közösségi média és a keresőmotorok cenzúrája a generatív mesterséges intelligenciával mélyen disztópiává válhat.
Úgy vélte, hogy az "éber mesterséges intelligencia" kifejezés alábecsüli a problémát, és inkább egy "orwelli mesterséges intelligenciát" ír le, amely valós időben torzítja a válaszokat, hazudik és átírja a történelmet, hogy igazodjon az uralkodó politikai narratívához.
Mint írtuk, a Goldman Sachs: AI modellek felgyorsítják az autonóm ügynöki képességeket
- Forex
- Crypto