Агенты искусственного интеллекта не справляются с 97% реальных задач, показывают исследования

Агенты искусственного интеллекта не справляются с 97% реальных задач, показывают исследования
Исследование показывает, что люди по-прежнему превосходят ИИ в реальных рабочих процессах

Несколько последних исследований показали, что агенты искусственного интеллекта все еще не могут конкурировать с людьми, когда речь идет о выполнении реальных задач.

Эта статья была переведена с оригинала. Читайте оригинальную версию от нашего корреспондента здесь.

Согласно исследованиям Scale AI и AI Research Center, агенты искусственного интеллекта не смогли выполнить 97 % задач на Upwork даже на базовом уровне. В ходе исследования были протестированы шесть различных моделей искусственного интеллекта на 240 проектах Upwork в таких категориях, как написание текстов, дизайн и анализ данных, а результаты сравнивались с результатами реальных фрилансеров.

Модель искусственного интеллекта Manus, показавшая наилучшие результаты, успешно справилась лишь с 2,5 % заданий, заработав около 1 810 долларов из 143 991 доллара, имевшихся в наличии. Другие модели, такие как Claude Sonnet и Grok 4, справились лишь с 2,1 %. Исследователи пришли к выводу, что ИИ-агентам сложно справляться с многоступенчатыми рабочими процессами, проявлять инициативу и принимать решения, что говорит о том, что ИИ не заменит человека в ближайшее время.

Отдельное исследование Европейского вещательного союза и BBC показало, что модели ИИ, включая ChatGPT, Copilot и Perplexity, неэффективны при подготовке новостных материалов. Они не отвечают ключевым журналистским критериям, таким как проверка источников, точность, создание текста и умение отличать факты от мнений.

В 45 % ответов, сгенерированных ИИ, исследователи обнаружили как минимум одну существенную ошибку; только 31 % ответов были оценены как правильные, а 20 % содержали устаревшую, вводящую в заблуждение или ложную информацию.

Тем временем сайт Freelance.com сообщил, что сгенерированные искусственным интеллектом сопроводительные письма подрывают процесс подачи заявок на работу, что приводит к сокращению числа нанятых сотрудников или неправильному подбору кандидатов. Компания также обнаружила, что вероятность того, что высококвалифицированные специалисты (верхний квинтиль) будут приняты на работу, на 19 % ниже, чем раньше, а вероятность того, что кандидаты с более низкой квалификацией (нижний квинтиль) будут приняты на работу, на 14 % выше.

Без людей мир становится пустым

Эти выводы согласуются с августовским исследованием Массачусетского технологического института, в котором был сделан вывод, что 95 % организаций не увидели отдачи от своих инвестиций в ИИ в размере 30 миллиардов долларов.

Согласно исследованию WorldTest, проведенному Массачусетским технологическим институтом и компанией Basis Research, агенты ИИ могут сопоставлять шаблоны и предсказывать слова, но с трудом строят внутренние модели мира.

Исследование MIT включало 129 задач в 43 интерактивных средах, требующих от ИИ предсказывать скрытые аспекты мира, планировать последовательность действий для достижения целей и определять изменения правил. Для сравнения, 517 участников-людей справились с заданиями почти оптимально, в то время как модели ИИ часто терпели неудачу.

Исследователи полагают, что люди превосходят их, поскольку интуитивно понимают окружающую обстановку, корректируют перспективы, экспериментируют, перезагружаются и стратегически исследуют. Увеличение вычислительной мощности не помогло существующим моделям - оно улучшило производительность только в 25 из 43 сред.

Дэвид Сакс, советник по вопросам криптовалют и ИИ при администрации Трампа, также предупредил, что цензура в социальных сетях и поисковых системах может превратиться в глубокую антиутопию с генеративным ИИ.

Он утверждал, что термин "проснувшийся ИИ" преуменьшает проблему, описывая вместо этого "оруэлловский ИИ", который искажает ответы, лжет и переписывает историю в режиме реального времени, чтобы соответствовать преобладающему политическому нарративу.

Как мы уже писали, Goldman Sachs: Модели ИИ ускоряют развитие возможностей автономных агентов

Этот материал может содержать мнения третьих лиц, никакие данные и информация на этой веб-странице не являются инвестиционным советом в соответствии с нашим Отказом от ответственности. Хотя мы придерживаемся строгих Редакционных стандартов, этот пост может содержать ссылки на продукты наших партнеров.
Топ бонусов недели
до $2,500
бонус за депозит для всех клиентов
ПОЛУЧИТЬ БОНУС
Ваш капитал находится под угрозой.