تشير الدراسات إلى أن وكلاء الذكاء الاصطناعي يفشلون في 97% من المهام في العالم الحقيقي

تشير الدراسات إلى أن وكلاء الذكاء الاصطناعي يفشلون في 97% من المهام في العالم الحقيقي
تُظهر الأبحاث أن البشر لا يزالون يتفوقون على الذكاء الاصطناعي في سير العمل الحقيقي

كشفت العديد من الدراسات الحديثة أن وكلاء الذكاء الاصطناعي لا يزالون يفشلون في منافسة البشر عندما يتعلق الأمر بأداء المهام في العالم الحقيقي.

تمت ترجمة هذا المقال من النسخة الأصلية. اقرأ النسخة الأصلية التي أعدها مراسلنا هنا.

ووفقاً لبحث أجراه Scale AI ومركز أبحاث الذكاء الاصطناعي، لم يتمكن وكلاء الذكاء الاصطناعي من إكمال 97% من مهام Upwork حتى على المستوى الأساسي. اختبرت الدراسة ستة نماذج مختلفة للذكاء الاصطناعي عبر 240 مشروعاً في Upwork في فئات مثل الكتابة والتصميم وتحليل البيانات، وقارنت النتائج مع نتائج العاملين المستقلين الحقيقيين.

أكمل نموذج الذكاء الاصطناعي الأفضل أداءً، Manus، بنجاح 2.5% فقط من المهام، حيث كسب حوالي 1,810 دولار من أصل 143,991 دولاراً من الأعمال المتاحة. أما النماذج الأخرى، مثل Claude Sonnet و Grok 4، فقد نجحت في إنجاز 2.1% فقط. وقد خلص الباحثون إلى أن وكلاء الذكاء الاصطناعي يعانون من صعوبات في سير العمل متعدد الخطوات والمبادرة واتخاذ القرارات، مما يشير إلى أن الذكاء الاصطناعي لن يحل محل الوظائف البشرية في أي وقت قريب.

ووجدت دراسة منفصلة أجراها اتحاد الإذاعات الأوروبية وهيئة الإذاعة البريطانية أن نماذج الذكاء الاصطناعي - بما في ذلك ChatGPT و Copilot و Perplexity - غير فعالة في إعداد التقارير الإخبارية. فهي تفشل في تلبية المعايير الصحفية الرئيسية مثل التحقق من المصدر، والدقة، وتوليد النصوص، وتمييز الحقائق من الآراء.

في 45% من الإجابات التي تم توليدها بالذكاء الاصطناعي، وجد الباحثون خطأً واحدًا كبيرًا على الأقل؛ حيث تم تصنيف 31% فقط من الإجابات على أنها صحيحة، بينما احتوت 20% من الإجابات على معلومات قديمة أو مضللة أو خاطئة.

وفي الوقت نفسه، أفاد موقع Freelance.com أن رسائل الغلاف التي يتم إنشاؤها بواسطة الذكاء الاصطناعي تقوض عملية تقديم طلبات التوظيف - مما يؤدي إلى عدد أقل من التعيينات أو إلى تطابق غير صحيح. كما وجدت الشركة أن احتمالية توظيف المهنيين ذوي المهارات العالية (الخُمس الأعلى) أقل بنسبة 19% من ذي قبل، في حين أن المرشحين ذوي المهارات الأقل (الخُمس الأدنى) هم أكثر عرضة للتوظيف بنسبة 14%.

بدون البشر، يصبح العالم فارغاً

تتفق هذه النتائج مع دراسة أجراها معهد ماساتشوستس للتكنولوجيا في أغسطس الماضي، والتي خلصت إلى أن 95% من المؤسسات لم تشهد أي عائد على استثماراتها في الذكاء الاصطناعي التي بلغت 30 مليار دولار.

ووفقًا لدراسة WorldTest، وهي دراسة أجراها معهد ماساتشوستس للتكنولوجيا وشركة باسيس للأبحاث، يمكن لوكلاء الذكاء الاصطناعي مطابقة الأنماط والتنبؤ بالكلمات - لكنهم يكافحون لبناء نماذج داخلية للعالم.

شمل البحث الذي أجراه معهد ماساتشوستس للتكنولوجيا 129 مهمة في 43 بيئة تفاعلية، تطلبت من الذكاء الاصطناعي التنبؤ بالجوانب الخفية من العالم، وتخطيط تسلسل الإجراءات للوصول إلى الأهداف، واكتشاف تغيرات القواعد. وبالمقارنة، كان أداء 517 مشاركاً بشرياً على النحو الأمثل تقريباً، بينما فشلت نماذج الذكاء الاصطناعي في كثير من الأحيان.

يشير الباحثون إلى أن البشر يتفوقون لأنهم يفهمون البيئات بشكل حدسي، ويضبطون وجهات النظر، ويجرّبون، ويعيدون ضبطها، ويستكشفون بشكل استراتيجي. لم تساعد زيادة القوة الحاسوبية النماذج الحالية - فقد حسّنت الأداء في 25 بيئة فقط من أصل 43 بيئة.

كما حذر ديفيد ساكس، مستشار السياسات في مجال التشفير والذكاء الاصطناعي في عهد إدارة ترامب، من أن وسائل التواصل الاجتماعي والرقابة على محركات البحث قد تصبح بائسة للغاية مع الذكاء الاصطناعي التوليدي.

وجادل بأن مصطلح "الذكاء الاصطناعي اليقظ" يقلل من شأن المشكلة، ويصف بدلاً من ذلك "الذكاء الاصطناعي الأورويلي" الذي يشوه الإجابات ويكذب ويعيد كتابة التاريخ في الوقت الحقيقي ليتماشى مع الرواية السياسية السائدة.

كما كتبنا في جولدمان ساكس: نماذج الذكاء الاصطناعي تسرّع من قدرات الوكيل المستقل

قد يحتوي هذا المحتوى على آراء طرف ثالث، ولا تشكل أي من البيانات والمعلومات على هذه الصفحة الإلكترونية نصيحة استثمارية وفقًا لـ إخلاء المسؤولية الخاص بنا. بينما نلتزم بـ النزاهة التحريرية الصارمة، قد يحتوي هذا المنشور على إشارات إلى منتجات من شركائنا.