研究显示,人工智能代理未能完成 97% 的实际任务

研究显示,人工智能代理未能完成 97% 的实际任务
研究表明,在实际工作流程中,人类的表现仍优于人工智能

最近的几项研究表明,人工智能代理在执行现实世界的任务时仍然无法与人类竞争。

本文翻译自原文。点击此处阅读由我们的通讯员撰写的原文.

根据 Scale AI 和人工智能研究中心的研究,人工智能代理无法 完成 97% 的 Upwork 任务,即使是最基本的任务。这项研究在240个Upwork项目中测试了六种不同的人工智能模型,包括写作、设计和数据分析等类别,并将结果与真正的自由职业者进行了比较。

表现最好的人工智能模型 Manus 仅成功完成了 2.5% 的任务,在 143991 美元的可用工作中赚取了约 1810 美元。其他模型,如 Claude Sonnet 和 Grok 4,只完成了 2.1%。研究人员的结论是,人工智能代理在多步骤工作流程、主动性和决策方面存在困难,这表明人工智能不会很快取代人类的工作。

欧洲广播联盟和英国广播公司的另一项研究发现,包括 ChatGPT、Copilot 和 Perplexity 在内的人工智能模型在新闻报道方面效果不佳 。它们无法满足关键的新闻标准,如来源验证、准确性、文本生成以及区分事实与观点。

在 45% 的人工智能生成的答案中,研究人员发现至少有一个重大错误;只有 31% 的答案被评为正确,20% 的答案包含过时、误导或虚假信息。

与此同时,Freelance.com 报道称,人工智能生成的求职信正在破坏求职申请流程--导致招聘人数减少或匹配错误。该公司还发现,顶级技能专业人士(前五分之一)被录用的可能性比以前降低了19%,而低技能求职者(后五分之一)被录用的可能性则提高了14%。

没有人类,世界变得空洞

这些发现与麻省理工学院 8 月份的一项研究相吻合,该研究认为,95% 的企业在 300 亿美元的人工智能投资上看不到回报。

根据麻省理工学院和 Basis Research 开展的一项研究 WorldTest,人工智能代理可以匹配模式并预测单词,但在建立世界内部模型方面却举步维艰。

麻省理工学院的研究涉及 43 个互动环境中的 129 项任务,要求人工智能预测世界的隐藏方面、规划行动序列以实现目标,以及检测规则变化。相比之下,517 名人类参与者的表现几乎达到最佳,而人工智能模型却经常失败。

研究人员认为,人类之所以表现出色,是因为他们能凭直觉理解环境、调整视角、进行实验、重新设定并进行战略性探索。提高计算能力对现有模型没有帮助--它只提高了 43 种环境中 25 种环境的性能。

特朗普政府的加密货币和人工智能政策顾问大卫-萨克斯(David Sacks)也警告说,社交媒体和搜索引擎审查可能会因为生成式人工智能而变得极度乌托邦化。

他认为,"觉醒的人工智能 "一词低估了这个问题,它描述的是一种 "奥威尔式的人工智能",这种人工智能会实时歪曲答案、撒谎和改写历史,以便与主流政治叙事保持一致。

正如我们所写,高盛:人工智能模型加速自主代理能力

此材料可能包含第三方意见,根据我们的免责声明,本网页上的数据和信息均不构成投资建议。尽管我们坚持严格的编辑完整性,但此帖子可能包含对我们合作伙伴产品的引用。