Studiile arată că agenții AI eșuează în 97% din sarcinile din lumea reală
Mai multe studii recente arată că agenții AI încă nu reușesc să concureze cu oamenii atunci când vine vorba de îndeplinirea sarcinilor din lumea reală.
Acest articol a fost tradus din original. Citiți versiunea originală a corespondentului nostru aici.
Conform unei cercetări realizate de Scale AI și AI Research Center, agenții de inteligență artificială nu au fost capabili să îndeplinească 97% din sarcinile Upwork, nici măcar la un nivel de bază. Studiul a testat șase modele diferite de inteligență artificială pe 240 de proiecte Upwork din categorii precum redactare, design și analiză de date, comparând rezultatele cu cele ale unor freelanceri reali.
Cel mai performant model AI, Manus, a finalizat cu succes doar 2,5% din sarcini, câștigând aproximativ 1.810 de dolari din 143.991 de dolari în muncă disponibilă. Alte modele, precum Claude Sonnet și Grok 4, au reușit doar 2,1%. Cercetătorii au concluzionat că agenții AI se luptă cu fluxurile de lucru în mai multe etape, cu inițiativa și cu luarea deciziilor, sugerând că AI nu va înlocui prea curând locurile de muncă umane.
Un studiu separat realizat de European Broadcasting Union și BBC a constatat că modelele AI - inclusiv ChatGPT, Copilot și Perplexity - sunt ineficiente la raportarea știrilor. Acestea nu reușesc să îndeplinească criteriile jurnalistice cheie, cum ar fi verificarea surselor, acuratețea, generarea de text și diferențierea faptelor de opinii.
În 45% dintre răspunsurile generate de AI, cercetătorii au găsit cel puțin o eroare semnificativă; doar 31% dintre răspunsuri au fost considerate corecte, în timp ce 20% conțineau informații depășite, înșelătoare sau false.
Între timp, Freelance.com a raportat că scrisorile de intenție generate de AI subminează procesul de solicitare a unui loc de muncă - ducând la mai puține angajări sau la potriviri nepotrivite. De asemenea, compania a constatat că profesioniștii cu calificări superioare (quintila superioară) au cu 19% mai puține șanse de a fi angajați decât înainte, în timp ce candidații cu calificări inferioare (quintila inferioară) au cu 14% mai multe șanse de a fi angajați.
Fără oameni, lumea devine goală
Aceste constatări sunt în concordanță cu un studiu MIT din luna august, care a concluzionat că 95% dintre organizații nu au văzut niciun randament al investițiilor lor de 30 de miliarde de dolari în IA.
Conform WorldTest, un studiu realizat de MIT și Basis Research, agenții AI pot potrivi modele și prezice cuvinte - dar se luptă să construiască modele interne ale lumii.
Cercetarea MIT a implicat 129 de sarcini în 43 de medii interactive, solicitând AI să prezică aspecte ascunse ale lumii, să planifice secvențe de acțiuni pentru atingerea obiectivelor și să detecteze modificări ale regulilor. În comparație, 517 participanți umani au avut performanțe aproape optime, în timp ce modelele AI au eșuat adesea.
Cercetătorii sugerează că oamenii excelează pentru că înțeleg intuitiv mediile, ajustează perspectivele, experimentează, resetează și explorează strategic. Creșterea puterii de calcul nu a ajutat modelele existente - a îmbunătățit performanța în doar 25 din 43 de medii.
David Sacks, consilier politic pentru criptografie și IA în cadrul administrației Trump, a avertizat, de asemenea, că cenzura rețelelor sociale și a motoarelor de căutare ar putea deveni profund distopică cu ajutorul IA generativă.
El a susținut că termenul "AI trezit" subestimează problema, descriind în schimb un "AI orwellian" care distorsionează răspunsurile, minte și rescrie istoria în timp real pentru a se alinia cu narațiunea politică predominantă.
După cum am scris, Goldman Sachs: Modelele de inteligență artificială accelerează capacitățile agenților autonomi
- Forex
- Crypto
-
1
TU score: 9.4/10Capitalul dumneavoastră poate fi în pericol. -
2
TU score: 9.2/1082% din conturile de retail CFD pierd bani. -
3
TU score: 9.1/10Capitalul dumneavoastră poate fi în pericol. -
4
TU score: 8.9/10Capitalul dumneavoastră poate fi în pericol. -
5
TU score: 8.7/10Capitalul dvs este supus riscului.