Агенти штучного інтелекту не справляються з 97% реальних завдань, показують дослідження
Кілька нещодавніх досліджень показують, що агенти штучного інтелекту все ще не можуть конкурувати з людьми, коли справа доходить до виконання реальних завдань.
Ця стаття була перекладена з оригіналу. Читайте оригінальну версію від нашого кореспондента тут.
Згідно з дослідженням Scale AI та AI Research Center, агенти штучного інтелекту не змогли виконати 97% завдань Upwork навіть на базовому рівні. У дослідженні було протестовано шість різних моделей штучного інтелекту на 240 проектах Upwork у таких категоріях, як написання текстів, дизайн та аналіз даних, і порівняно результати з результатами реальних фрілансерів.
Модель Manus, яка показала найкращі результати, успішно виконала лише 2,5% завдань, заробивши близько $1 810 з $143 991 за доступну роботу. Інші моделі, такі як Claude Sonnet і Grok 4, впоралися лише з 2,1%. Дослідники дійшли висновку, що АІ-агентам важко справлятися з багатоетапними робочими процесами, ініціативністю та прийняттям рішень, що свідчить про те, що АІ не замінить людську роботу найближчим часом.
Окреме дослідження, проведене Європейською мовною спілкою та BBC, показало, що моделі штучного інтелекту, зокрема ChatGPT, Copilot і Perplexity, є неефективними у висвітленні новин. Вони не відповідають ключовим журналістським критеріям, таким як перевірка джерел, точність, генерація тексту та розрізнення фактів і думок.
У 45% відповідей, згенерованих штучним інтелектом, дослідники виявили щонайменше одну суттєву помилку; лише 31% відповідей були оцінені як правильні, тоді як 20% містили застарілу, оманливу або неправдиву інформацію.
Тим часом Freelance.com повідомив, що супровідні листи, створені штучним інтелектом, підривають процес подачі заявок на роботу, що призводить до меншої кількості наймань або неправильних збігів. Компанія також виявила, що у висококваліфікованих фахівців (верхній квінтиль) на 19% менше шансів бути найнятими, ніж раніше, тоді як у кандидатів з нижчою кваліфікацією (нижній квінтиль) на 14% більше шансів бути найнятими.
Без людей світ стає порожнім
Ці висновки узгоджуються з результатами серпневого дослідження Массачусетського технологічного інституту (MIT), яке показало, що 95% організацій не побачили жодної віддачі від своїх інвестицій у штучний інтелект у розмірі 30 мільярдів доларів.
За даними WorldTest, дослідження, проведеного MIT і Basis Research, агенти Ш І можуть зіставляти шаблони і передбачати слова, але їм важко будувати внутрішні моделі світу.
Дослідження MIT включало 129 завдань у 43 інтерактивних середовищах, які вимагали від ШІ передбачати приховані аспекти світу, планувати послідовність дій для досягнення цілей і виявляти зміни в правилах. Для порівняння, 517 учасників-людей виконали завдання майже оптимально, тоді як ШІ-моделі часто зазнавали невдач.
Дослідники припускають, що люди досягають успіху тому, що вони інтуїтивно розуміють навколишнє середовище, коригують перспективи, експериментують, перезавантажуються і стратегічно досліджують. Збільшення обчислювальної потужності не допомогло існуючим моделям - воно покращило продуктивність лише у 25 з 43 середовищ.
Девід Сакс, політичний радник з питань криптовалют і ШІ в адміністрації Трампа, також попередив, що цензура в соціальних мережах і пошукових системах може стати глибоко антиутопічною з генеративним ШІ.
Він стверджував, що термін "розбуджений ШІ" недооцінює проблему, описуючи натомість "орвеллівський ШІ", який спотворює відповіді, бреше і переписує історію в режимі реального часу, щоб відповідати домінуючому політичному наративу.
Як ми вже писали, Goldman Sachs: Моделі ШІ прискорюють можливості автономних агентів
Найсвіжіші новини business
- Forex
- Crypto