Los agentes de IA fracasan en el 97% de las tareas del mundo real, según los estudios

Los agentes de IA fracasan en el 97% de las tareas del mundo real, según los estudios
Un estudio demuestra que los humanos siguen superando a la IA en los flujos de trabajo reales

Varios estudios recientes revelan que los agentes de IA siguen sin poder competir con los humanos cuando se trata de realizar tareas del mundo real.

Este artículo ha sido traducido del original. Lea la versión original de nuestro corresponsal aquí.

Según una investigación realizada por Scale AI y el AI Research Center, los agentes de inteligencia artificial fueron incapaces de completar el 97% de las tareas de Upwork, incluso a un nivel básico. El estudio probó seis modelos diferentes de IA en 240 proyectos de Upwork en categorías como redacción, diseño y análisis de datos, comparando los resultados con los de autónomos reales.

El modelo de IA con mejores resultados, Manus, completó con éxito sólo el 2,5% de las tareas, ganando alrededor de 1.810 dólares de los 143.991 dólares en trabajo disponible. Otros modelos, como Claude Sonnet y Grok 4, sólo consiguieron un 2,1%. Los investigadores llegaron a la conclusión de que los agentes de IA tienen dificultades con los flujos de trabajo de varios pasos, la iniciativa y la toma de decisiones, lo que sugiere que la IA no sustituirá a los empleos humanos a corto plazo.

Otro estudio de la Unión Europea de Radiodifusión y la BBC concluyó que los modelos de IA, como ChatGPT, Copilot y Perplexity, son ineficaces para informar. No cumplen criterios periodísticos clave como la verificación de fuentes, la precisión, la generación de textos y la distinción entre hechos y opiniones.

En el 45% de las respuestas generadas por IA, los investigadores encontraron al menos un error significativo; sólo el 31% de las respuestas fueron calificadas como correctas, mientras que el 20% contenían información obsoleta, engañosa o falsa.

Mientras tanto, Freelance.com informó de que las cartas de presentación generadas por IA están socavando el proceso de solicitud de empleo, lo que lleva a menos contrataciones o a coincidencias erróneas. La empresa también descubrió que los profesionales más cualificados (quintil superior) tienen un 19% menos de probabilidades de ser contratados que antes, mientras que los candidatos menos cualificados (quintil inferior) tienen un 14% más de probabilidades de ser contratados.

Sin humanos, el mundo se vacía

Estos resultados son coherentes con un estudio del MIT de agosto, que concluyó que el 95% de las organizaciones no vieron ningún retorno en sus inversiones de 30.000 millones de dólares en IA.

Según WorldTest, un estudio realizado por el MIT y Basis Research, los agentes de IA pueden emparejar patrones y predecir palabras, pero tienen dificultades para construir modelos internos del mundo.

La investigación del MIT incluyó 129 tareas en 43 entornos interactivos, que exigían a la IA predecir aspectos ocultos del mundo, planificar secuencias de acciones para alcanzar objetivos y detectar cambios en las reglas. En comparación, 517 participantes humanos obtuvieron resultados casi óptimos, mientras que los modelos de IA fallaban con frecuencia.

Los investigadores sugieren que los humanos destacan porque comprenden intuitivamente los entornos, ajustan las perspectivas, experimentan, reajustan y exploran estratégicamente. El aumento de la potencia de cálculo no ayudó a los modelos existentes: sólo mejoró el rendimiento en 25 de los 43 entornos.

David Sacks, asesor político sobre cripto e IA bajo la administración Trump, también advirtió que la censura de las redes sociales y los motores de búsqueda podría volverse profundamente distópica con la IA generativa.

Sostuvo que el término "IA woke" subestima el problema, describiendo en cambio una "IA orwelliana" que distorsiona las respuestas, miente y reescribe la historia en tiempo real para alinearse con la narrativa política imperante.

Como escribimos, Goldman Sachs: Los modelos de IA aceleran las capacidades de los agentes autónomos

Este material puede contener opiniones de terceros, ninguno de los datos e información en esta página web constituye asesoramiento de inversión según nuestro Aviso Legal. Aunque nos adherimos a una estricta Integridad Editorial, esta publicación puede contener referencias a productos de nuestros socios.