Studien zeigen, dass KI-Agenten bei 97 % der realen Aufgaben versagen
Mehrere aktuelle Studien zeigen, dass KI-Agenten bei der Ausführung realer Aufgaben immer noch nicht mit Menschen mithalten können.
Dieser Artikel wurde aus dem Original übersetzt. Lesen Sie die Originalversion unseres Korrespondenten hier.
Laut einer Studie von Scale AI und dem AI Research Center waren Agenten mit künstlicher Intelligenz nicht in der Lage , 97 % der Upwork-Aufgaben zu erledigen, nicht einmal auf einem einfachen Niveau. Die Studie testete sechs verschiedene KI-Modelle in 240 Upwork-Projekten in Kategorien wie Schreiben, Design und Datenanalyse und verglich die Ergebnisse mit denen von echten Freiberuflern.
Das leistungsstärkste KI-Modell, Manus, erledigte nur 2,5 % der Aufgaben erfolgreich und verdiente dabei etwa 1.810 Dollar von 143.991 Dollar an verfügbaren Aufträgen. Andere Modelle, wie Claude Sonnet und Grok 4, schafften nur 2,1 %. Die Forscher kamen zu dem Schluss, dass KI-Agenten Schwierigkeiten mit mehrstufigen Arbeitsabläufen, Eigeninitiative und Entscheidungsfindung haben, was darauf hindeutet, dass KI in absehbarer Zeit keine menschlichen Arbeitsplätze ersetzen wird.
In einer separaten Studie der Europäischen Rundfunkunion und der BBC wurde festgestellt, dass KI-Modelle - darunter ChatGPT, Copilot und Perplexity - bei der Nachrichtenberichterstattung ineffektiv sind. Sie erfüllen nicht die wichtigsten journalistischen Kriterien wie Quellenüberprüfung, Genauigkeit, Texterstellung und Unterscheidung von Fakten und Meinungen.
In 45 % der von der KI generierten Antworten fanden die Forscher mindestens einen signifikanten Fehler; nur 31 % der Antworten wurden als korrekt bewertet, während 20 % veraltete, irreführende oder falsche Informationen enthielten.
In der Zwischenzeit berichtete Freelance.com, dass KI-generierte Anschreiben den Bewerbungsprozess unterminieren - was zu weniger Einstellungen oder falschen Übereinstimmungen führt. Das Unternehmen fand auch heraus, dass hochqualifizierte Fachkräfte (oberstes Quintil) eine um 19 % geringere Wahrscheinlichkeit haben, eingestellt zu werden, während die Wahrscheinlichkeit, eingestellt zu werden, für weniger qualifizierte Bewerber (unterstes Quintil) um 14 % steigt.
Ohne Menschen wird die Welt leerer
Diese Ergebnisse stehen im Einklang mit einer MIT-Studie vom August, die zu dem Schluss kam, dass 95 % der Unternehmen keine Rendite aus ihren 30 Milliarden Dollar schweren KI-Investitionen ziehen konnten.
Laut WorldTest, einer vom MIT und Basis Research durchgeführten Studie, können KI-Agenten zwar Muster abgleichen und Wörter vorhersagen, haben aber Schwierigkeiten, interne Modelle der Welt zu erstellen.
Die MIT-Forschung umfasste 129 Aufgaben in 43 interaktiven Umgebungen, bei denen die KI verborgene Aspekte der Welt vorhersagen, Handlungsabläufe planen, um Ziele zu erreichen, und Regeländerungen erkennen musste. Im Vergleich dazu schnitten 517 menschliche Teilnehmer nahezu optimal ab, während die KI-Modelle häufig versagten.
Die Forscher vermuten, dass Menschen sich dadurch auszeichnen, dass sie Umgebungen intuitiv verstehen, Perspektiven anpassen, experimentieren, zurücksetzen und strategisch erkunden. Die Erhöhung der Rechenleistung half den bestehenden Modellen nicht - sie verbesserte die Leistung nur in 25 von 43 Umgebungen.
David Sacks, politischer Berater für Krypto und KI unter der Trump-Administration, warnte auch davor, dass die Zensur von sozialen Medien und Suchmaschinen durch generative KI zutiefst dystopisch werden könnte.
Er argumentierte, dass der Begriff "wache KI" das Problem untertreibt und beschreibt stattdessen eine "Orwellsche KI", die Antworten verzerrt, lügt und die Geschichte in Echtzeit umschreibt, um sich dem vorherrschenden politischen Narrativ anzupassen.
Wie wir geschrieben haben, Goldman Sachs: KI-Modelle beschleunigen die Fähigkeiten autonomer Agenten
Neueste business Nachrichten
- Forex
- Crypto