Studi dimostrano che gli agenti di intelligenza artificiale falliscono nel 97% dei compiti reali
Diversi studi recenti rivelano che gli agenti di intelligenza artificiale non riescono ancora a competere con gli esseri umani quando si tratta di svolgere compiti del mondo reale.
Questo articolo è stato tradotto dall'originale. Leggi la versione originale del nostro corrispondente qui.
Secondo una ricerca condotta da Scale AI e dall'AI Research Center, gli agenti di intelligenza artificiale non sono stati in grado di completare il 97% dei compiti di Upwork nemmeno a livello di base. Lo studio ha testato sei diversi modelli di intelligenza artificiale su 240 progetti Upwork in categorie come la scrittura, il design e l'analisi dei dati, confrontando i risultati con quelli di veri freelance.
Il modello di intelligenza artificiale con le migliori prestazioni, Manus, ha completato con successo solo il 2,5% dei compiti, guadagnando circa 1.810 dollari su 143.991 dollari di lavoro disponibile. Altri modelli, come Claude Sonnet e Grok 4, hanno ottenuto solo il 2,1%. I ricercatori hanno concluso che gli agenti dell'IA hanno difficoltà con i flussi di lavoro in più fasi, l'iniziativa e il processo decisionale, suggerendo che l'IA non sostituirà presto il lavoro umano.
Uno studio separato condotto dall'Unione Europea di Radiodiffusione e dalla BBC ha rilevato che i modelli di IA - tra cui ChatGPT, Copilot e Perplexity - sono inefficaci nella redazione di notizie. Non riescono a soddisfare i criteri giornalistici fondamentali, come la verifica delle fonti, l'accuratezza, la generazione di testi e la distinzione tra fatti e opinioni.
Nel 45% delle risposte generate dall'intelligenza artificiale, i ricercatori hanno riscontrato almeno un errore significativo; solo il 31% delle risposte è stato giudicato corretto, mentre il 20% conteneva informazioni obsolete, fuorvianti o false.
Nel frattempo, Freelance.com ha riferito che le lettere di presentazione generate dall'intelligenza artificiale stanno compromettendo il processo di candidatura, portando a un numero inferiore di assunzioni o a corrispondenze non allineate. L'azienda ha anche scoperto che i professionisti più qualificati (quintile superiore) hanno il 19% in meno di probabilità di essere assunti rispetto al passato, mentre i candidati meno qualificati (quintile inferiore) hanno il 14% in più di probabilità di essere assunti.
Senza esseri umani, il mondo si svuota
Questi risultati sono coerenti con uno studio del MIT di agosto, che ha concluso che il 95% delle organizzazioni non ha visto alcun ritorno sui 30 miliardi di dollari investiti nell'IA.
Secondo WorldTest, uno studio condotto dal MIT e da Basis Research, gli agenti dell'IA sono in grado di abbinare modelli e prevedere parole, ma faticano a costruire modelli interni del mondo.
La ricerca del MIT ha coinvolto 129 compiti in 43 ambienti interattivi, richiedendo all'IA di prevedere aspetti nascosti del mondo, pianificare sequenze di azioni per raggiungere gli obiettivi e rilevare i cambiamenti delle regole. A confronto, 517 partecipanti umani hanno ottenuto risultati quasi ottimali, mentre i modelli dell'IA hanno spesso fallito.
I ricercatori suggeriscono che gli esseri umani eccellono perché comprendono intuitivamente gli ambienti, adattano le prospettive, sperimentano, resettano ed esplorano strategicamente. L'aumento della potenza di calcolo non ha aiutato i modelli esistenti: ha migliorato le prestazioni solo in 25 dei 43 ambienti.
David Sacks, consulente politico per la crittografia e l'IA sotto l'amministrazione Trump, ha anche avvertito che la censura dei social media e dei motori di ricerca potrebbe diventare profondamente distopica con l'IA generativa.
Egli ha sostenuto che il termine "IA sveglia" sottovaluta il problema, descrivendo invece una "IA orwelliana" che distorce le risposte, mente e riscrive la storia in tempo reale per allinearsi alla narrazione politica prevalente.
Come abbiamo scritto, Goldman Sachs: I modelli di IA accelerano le capacità degli agenti autonomi
Ultime notizie su business
- Forex
- Crypto