Agenti umělé inteligence selhávají v 97 % reálných úloh, ukazují studie
Několik nedávných studií odhalilo, že agenti s umělou inteligencí stále nedokážou konkurovat lidem, pokud jde o plnění úkolů v reálném světě.
Tento článek byl přeložen z originálu. Přečtěte si původní verzi od našeho korespondenta zde.
Podle výzkumu společností Scale AI a AI Research Center nebyli agenti umělé inteligence schopni dokončit 97 % úkolů na platformě Upwork ani na základní úrovni. Studie testovala šest různých modelů AI na 240 projektech Upwork v kategoriích, jako je psaní, design a analýza dat, a porovnávala výsledky s výsledky skutečných freelancerů.
Nejlépe fungující model umělé inteligence, Manus, úspěšně dokončil pouze 2,5 % úkolů a vydělal přibližně 1 810 dolarů ze 143 991 dolarů dostupné práce. Ostatní modely, jako například Claude Sonnet a Grok 4, zvládly pouze 2,1 %. Výzkumníci dospěli k závěru, že agenti AI mají problémy s vícekrokovými pracovními postupy, iniciativou a rozhodováním, což naznačuje, že AI v dohledné době nenahradí lidskou práci.
Samostatná studie Evropské vysílací unie a BBC zjistila, že modely AI - včetně ChatGPT, Copilot a Perplexity - jsou ve zpravodajství neefektivní . Nedokážou splnit klíčová novinářská kritéria, jako je ověřování zdrojů, přesnost, generování textu a rozlišování faktů od názorů.
Ve 45 % odpovědí vygenerovaných umělou inteligencí našli výzkumníci alespoň jednu významnou chybu; pouze 31 % odpovědí bylo vyhodnoceno jako správné, zatímco 20 % obsahovalo zastaralé, zavádějící nebo nepravdivé informace.
Server Freelance.com mezitím uvedl, že motivační dopisy generované umělou inteligencí podkopávají proces podávání žádostí o zaměstnání - vedou k menšímu počtu náborů nebo k nesprávným shodám. Společnost také zjistila, že u odborníků s nejvyšší kvalifikací (horní kvantil) je pravděpodobnost přijetí o 19 % nižší než dříve, zatímco u kandidátů s nižší kvalifikací (dolní kvantil) je pravděpodobnost přijetí o 14 % vyšší.
Bez lidí je svět stále prázdnější
Tato zjištění jsou v souladu se srpnovou studií MIT, která dospěla k závěru, že 95 % organizací nezaznamenalo žádnou návratnost svých investic do umělé inteligence ve výši 30 miliard dolarů.
Podle studie WorldTest, kterou provedly MIT a Basis Research, dokáží agenti AI porovnávat vzory a předpovídat slova - ale mají problémy s vytvářením interních modelů světa.
Výzkum MIT zahrnoval 129 úloh ve 43 interaktivních prostředích, které vyžadovaly, aby AI předvídala skryté aspekty světa, plánovala sekvence akcí k dosažení cílů a detekovala změny pravidel. Pro srovnání, 517 lidských účastníků si vedlo téměř optimálně, zatímco modely AI často selhávaly.
Výzkumníci naznačují, že lidé vynikají, protože intuitivně chápou prostředí, přizpůsobují perspektivy, experimentují, resetují a strategicky zkoumají. Zvýšení výpočetního výkonu stávajícím modelům nepomohlo - zlepšilo výkon pouze ve 25 ze 43 prostředí.
David Sacks, politický poradce pro kryptografii a umělou inteligenci za Trumpovy vlády, také varoval, že cenzura sociálních médií a vyhledávačů by se díky generativní umělé inteligenci mohla stát hluboce dystopickou.
Tvrdil, že termín "probuzená AI" tento problém podceňuje, a místo toho popsal "orwellovskou AI", která překrucuje odpovědi, lže a přepisuje historii v reálném čase tak, aby odpovídala převládajícímu politickému narativu.
Jak jsme psali, Goldman Sachs: Umělá inteligence zrychluje schopnosti autonomních agentů
- Forex
- Crypto