Agen AI gagal dalam 97% tugas di dunia nyata, studi menunjukkan

Agen AI gagal dalam 97% tugas di dunia nyata, studi menunjukkan
Penelitian menunjukkan bahwa manusia masih mengungguli AI di seluruh alur kerja nyata

Beberapa penelitian terbaru mengungkapkan bahwa agen AI masih gagal bersaing dengan manusia dalam melakukan tugas-tugas di dunia nyata.

Artikel ini diterjemahkan dari aslinya. Baca versi asli oleh koresponden kami di sini.

Menurut penelitian yang dilakukan oleh Scale AI dan AI Research Center, agen kecerdasan buatan tidak dapat menyelesaikan 97% tugas Upwork bahkan pada tingkat dasar. Penelitian ini menguji enam model AI yang berbeda di 240 proyek Upwork dalam kategori seperti penulisan, desain, dan analisis data, membandingkan hasilnya dengan para pekerja lepas sungguhan.

Model AI dengan performa terbaik, Manus, berhasil menyelesaikan hanya 2,5% tugas, menghasilkan sekitar $1.810 dari $143.991 pekerjaan yang tersedia. Model lain, seperti Claude Sonnet dan Grok 4, hanya berhasil menyelesaikan 2,1%. Para peneliti menyimpulkan bahwa agen AI kesulitan dengan alur kerja multi-langkah, inisiatif, dan pengambilan keputusan, menunjukkan bahwa AI tidak akan menggantikan pekerjaan manusia dalam waktu dekat.

Sebuah studi terpisah oleh European Broadcasting Union dan BBC menemukan bahwa model AI - termasuk ChatGPT, Copilot, dan Perplexity - tidak efektif dalam pelaporan berita. Mereka gagal memenuhi kriteria jurnalistik utama seperti verifikasi sumber, akurasi, pembuatan teks, dan membedakan fakta dari opini.

Dalam 45% jawaban yang dihasilkan oleh AI, para peneliti menemukan setidaknya satu kesalahan yang signifikan; hanya 31% jawaban yang dinilai benar, sementara 20% berisi informasi yang sudah ketinggalan zaman, menyesatkan, atau salah.

Sementara itu, Freelance.com melaporkan bahwa surat lamaran yang dibuat oleh AI merusak proses lamaran kerja - yang menyebabkan lebih sedikit orang yang direkrut atau kecocokan yang tidak sesuai. Perusahaan ini juga menemukan bahwa profesional berketerampilan tinggi (kuintil teratas) memiliki kemungkinan 19% lebih kecil untuk dipekerjakan dibandingkan sebelumnya, sementara kandidat berketerampilan rendah (kuintil terbawah) memiliki kemungkinan 14% lebih besar untuk dipekerjakan.

Tanpa manusia, dunia akan terasa hampa

Temuan ini konsisten dengan studi MIT pada bulan Agustus, yang menyimpulkan bahwa 95% organisasi tidak mendapatkan keuntungan dari investasi AI senilai $30 miliar.

Menurut WorldTest, sebuah studi yang dilakukan oleh MIT dan Basis Research, agen AI dapat mencocokkan pola dan memprediksi kata-kata - tetapi kesulitan untuk membangun model internal dunia.

Penelitian MIT melibatkan 129 tugas di 43 lingkungan interaktif, yang mengharuskan AI untuk memprediksi aspek-aspek tersembunyi di dunia, merencanakan urutan tindakan untuk mencapai tujuan, dan mendeteksi perubahan aturan. Sebagai perbandingan, 517 partisipan manusia berkinerja hampir optimal, sementara model AI sering kali gagal.

Para peneliti berpendapat bahwa manusia lebih unggul karena mereka secara intuitif memahami lingkungan, menyesuaikan perspektif, bereksperimen, mengatur ulang, dan mengeksplorasi secara strategis. Meningkatkan daya komputasi tidak membantu model yang ada - hanya meningkatkan kinerja di 25 dari 43 lingkungan.

David Sacks, penasihat kebijakan tentang kripto dan AI di bawah pemerintahan Trump, juga memperingatkan bahwa media sosial dan sensor mesin pencari dapat menjadi sangat distopia dengan AI generatif.

Dia berpendapat bahwa istilah "AI yang terbangun" meremehkan masalah ini, alih-alih menggambarkan "AI Orwellian" yang mendistorsi jawaban, kebohongan, dan menulis ulang sejarah secara real time untuk menyelaraskannya dengan narasi politik yang berlaku.

Seperti yang kami tulis, Goldman Sachs: Model AI mempercepat kemampuan agen otonom

Materi ini mungkin mengandung opini pihak ketiga, tidak ada data dan informasi di halaman web ini yang merupakan nasihat investasi menurut Disclaimer kami. Meskipun kami mematuhi Integritas Editorial yang ketat, postingan ini mungkin mengandung referensi ke produk dari mitra kami.