Agenti umělé inteligence selhávají v 97 % reálných úloh, ukazují studie

Agenti umělé inteligence selhávají v 97 % reálných úloh, ukazují studie
Výzkum ukazuje, že lidé stále překonávají umělou inteligenci v reálných pracovních postupech.

Několik nedávných studií odhalilo, že agenti s umělou inteligencí stále nedokážou konkurovat lidem, pokud jde o plnění úkolů v reálném světě.

Tento článek byl přeložen z originálu. Přečtěte si původní verzi od našeho korespondenta zde.

Podle výzkumu společností Scale AI a AI Research Center nebyli agenti umělé inteligence schopni dokončit 97 % úkolů na platformě Upwork ani na základní úrovni. Studie testovala šest různých modelů AI na 240 projektech Upwork v kategoriích, jako je psaní, design a analýza dat, a porovnávala výsledky s výsledky skutečných freelancerů.

Nejlépe fungující model umělé inteligence, Manus, úspěšně dokončil pouze 2,5 % úkolů a vydělal přibližně 1 810 dolarů ze 143 991 dolarů dostupné práce. Ostatní modely, jako například Claude Sonnet a Grok 4, zvládly pouze 2,1 %. Výzkumníci dospěli k závěru, že agenti AI mají problémy s vícekrokovými pracovními postupy, iniciativou a rozhodováním, což naznačuje, že AI v dohledné době nenahradí lidskou práci.

Samostatná studie Evropské vysílací unie a BBC zjistila, že modely AI - včetně ChatGPT, Copilot a Perplexity - jsou ve zpravodajství neefektivní . Nedokážou splnit klíčová novinářská kritéria, jako je ověřování zdrojů, přesnost, generování textu a rozlišování faktů od názorů.

Ve 45 % odpovědí vygenerovaných umělou inteligencí našli výzkumníci alespoň jednu významnou chybu; pouze 31 % odpovědí bylo vyhodnoceno jako správné, zatímco 20 % obsahovalo zastaralé, zavádějící nebo nepravdivé informace.

Server Freelance.com mezitím uvedl, že motivační dopisy generované umělou inteligencí podkopávají proces podávání žádostí o zaměstnání - vedou k menšímu počtu náborů nebo k nesprávným shodám. Společnost také zjistila, že u odborníků s nejvyšší kvalifikací (horní kvantil) je pravděpodobnost přijetí o 19 % nižší než dříve, zatímco u kandidátů s nižší kvalifikací (dolní kvantil) je pravděpodobnost přijetí o 14 % vyšší.

Bez lidí je svět stále prázdnější

Tato zjištění jsou v souladu se srpnovou studií MIT, která dospěla k závěru, že 95 % organizací nezaznamenalo žádnou návratnost svých investic do umělé inteligence ve výši 30 miliard dolarů.

Podle studie WorldTest, kterou provedly MIT a Basis Research, dokáží agenti AI porovnávat vzory a předpovídat slova - ale mají problémy s vytvářením interních modelů světa.

Výzkum MIT zahrnoval 129 úloh ve 43 interaktivních prostředích, které vyžadovaly, aby AI předvídala skryté aspekty světa, plánovala sekvence akcí k dosažení cílů a detekovala změny pravidel. Pro srovnání, 517 lidských účastníků si vedlo téměř optimálně, zatímco modely AI často selhávaly.

Výzkumníci naznačují, že lidé vynikají, protože intuitivně chápou prostředí, přizpůsobují perspektivy, experimentují, resetují a strategicky zkoumají. Zvýšení výpočetního výkonu stávajícím modelům nepomohlo - zlepšilo výkon pouze ve 25 ze 43 prostředí.

David Sacks, politický poradce pro kryptografii a umělou inteligenci za Trumpovy vlády, také varoval, že cenzura sociálních médií a vyhledávačů by se díky generativní umělé inteligenci mohla stát hluboce dystopickou.

Tvrdil, že termín "probuzená AI" tento problém podceňuje, a místo toho popsal "orwellovskou AI", která překrucuje odpovědi, lže a přepisuje historii v reálném čase tak, aby odpovídala převládajícímu politickému narativu.

Jak jsme psali, Goldman Sachs: Umělá inteligence zrychluje schopnosti autonomních agentů

Tento materiál může obsahovat názory třetích stran, žádná data a informace na této webové stránce nepředstavují investiční poradenství podle našeho Prohlášení. I když dodržujeme přísnou Redakční integritu, tento příspěvek může obsahovat odkazy na produkty od našich partnerů.