Araştırmalara göre YZ Ajanları gerçek dünyadaki görevlerin %97'sinde başarısız oluyor

Araştırmalara göre YZ Ajanları gerçek dünyadaki görevlerin %97'sinde başarısız oluyor
Araştırma, insanların gerçek iş akışlarında yapay zekadan daha iyi performans gösterdiğini ortaya koyuyor

Yakın zamanda yapılan birkaç araştırma, yapay zeka aracılarının gerçek dünyadaki görevleri yerine getirme konusunda hala insanlarla rekabet edemediğini ortaya koyuyor.

Bu makale orijinalinden tercüme edilmiştir. Muhabirimiz tarafından hazırlanan orijinal versiyonu okumak için buraya tıklayın.

Scale AI ve AI Araştırma Merkezi tarafından yapılan araştırmaya göre, yapay zeka ajanları Upwork görevlerinin %97'sini temel düzeyde bile tamamlayamadı . Çalışma, altı farklı yapay zeka modelini yazı, tasarım ve veri analizi gibi kategorilerdeki 240 Upwork projesinde test ederek sonuçları gerçek serbest çalışanlarınkiyle karşılaştırdı.

En iyi performans gösteren yapay zeka modeli Manus, görevlerin yalnızca %2,5'ini başarıyla tamamlayarak mevcut 143.991 dolarlık işten yaklaşık 1.810 dolar kazandı. Claude Sonnet ve Grok 4 gibi diğer modeller ise yalnızca %2,1 oranında başarılı oldu. Araştırmacılar, YZ aracılarının çok adımlı iş akışları, inisiyatif alma ve karar verme konularında zorlandıkları sonucuna vararak, YZ'nin yakın zamanda insan işlerinin yerini almayacağını öne sürdü.

Avrupa Yayın Birliği ve BBC tarafından yapılan ayrı bir çalışma, ChatGPT, Copilot ve Perplexity gibi yapay zeka modellerinin habercilikte etkisiz olduğunu ortaya koydu. Kaynak doğrulama, doğruluk, metin oluşturma ve gerçeği görüşten ayırt etme gibi temel gazetecilik kriterlerini karşılamada başarısız oluyorlar.

Yapay zeka tarafından üretilen yanıtların %45'inde araştırmacılar en az bir önemli hata buldu; yanıtların yalnızca %31'i doğru olarak değerlendirilirken, %20'si güncel olmayan, yanıltıcı veya yanlış bilgiler içeriyordu.

Bu arada Freelance.com, yapay zeka tarafından oluşturulan ön yazıların iş başvuru sürecini baltaladığını ve daha az işe alım ya da yanlış eşleşmelere yol açtığını bildirdi. Şirket ayrıca, üst düzey vasıflı profesyonellerin (en üst beşte birlik dilim) işe alınma olasılığının eskisine göre %19 daha az olduğunu, alt düzey vasıflı adayların (en alt beşte birlik dilim) işe alınma olasılığının ise %14 daha fazla olduğunu tespit etti.

İnsanlar olmadan dünya boş kalır

Bu bulgular, Ağustos ayında MIT tarafından yapılan ve kuruluşların %95'inin 30 milyar dolarlık yapay zeka yatırımlarından hiçbir getiri elde edemediği sonucuna varan bir çalışmayla tutarlıdır.

MIT ve Basis Research tarafından yürütülen bir çalışma olan WorldTest'e göre, YZ ajanları kalıpları eşleştirebilir ve kelimeleri tahmin edebilir - ancak dünyanın iç modellerini oluşturmakta zorlanırlar.

MIT araştırması, 43 etkileşimli ortamda 129 görev içeriyordu ve yapay zekanın dünyanın gizli yönlerini tahmin etmesini, hedeflere ulaşmak için eylem dizileri planlamasını ve kural değişikliklerini tespit etmesini gerektiriyordu. Buna karşılık, 517 insan katılımcı neredeyse en iyi performansı gösterirken, yapay zeka modelleri genellikle başarısız oldu.

Araştırmacılar, insanların ortamları sezgisel olarak anladıkları, perspektifleri ayarladıkları, deney yaptıkları, sıfırladıkları ve stratejik olarak keşfettikleri için üstün olduklarını öne sürüyor. Hesaplama gücünün artırılması mevcut modellere yardımcı olmadı - 43 ortamın sadece 25'inde performansı artırdı.

Trump yönetimi altında kripto ve yapay zeka konusunda politika danışmanı olan David Sacks, sosyal medya ve arama motoru sansürünün üretken yapay zeka ile son derece distopik hale gelebileceği konusunda da uyardı.

"Uyanmış YZ" teriminin sorunu hafife aldığını, bunun yerine cevapları çarpıtan, yalan söyleyen ve hakim siyasi anlatıya uyum sağlamak için tarihi gerçek zamanlı olarak yeniden yazan "Orwellci bir YZ" tanımladığını savundu.

Yazdığımız gibi, Goldman Sachs: YZ modelleri otonom ajan yeteneklerini hızlandırıyor

Bu materyal üçüncü taraf görüşlerini içerebilir, bu web sayfasındaki hiçbir veri ve bilgi Feragatnamemize göre yatırım tavsiyesi teşkil etmez. Katı Editoryal Dürüstlük ilkelerine bağlı kalmamıza rağmen, bu gönderi ortaklarımızın ürünlerine referanslar içerebilir.