Riset terbaru Mercor melalui benchmark APEX-Agents menunjukkan kenyataan yang kontras dengan narasi besar tentang AI menggantikan pekerjaan kantoran. Dalam simulasi tugas nyata dari dunia hukum, perbankan investasi, dan konsultansi, model AI terbaik hanya mampu menjawab benar sekitar 24% pertanyaan. Temuan ini mengungkap bahwa meskipun AI unggul dalam riset dan perencanaan, ia masih kesulitan menjalankan pekerjaan profesional lintas konteks yang menjadi inti knowledge work.
Fokus:
■ Benchmark APEX-Agents menunjukkan AI terbaik dunia hanya mampu menjawab benar sekitar 24% tugas profesional nyata.
■ Kelemahan utama AI ada pada kemampuan merangkai konteks lintas sistem dan dokumen, inti dari pekerjaan kantoran.
■ AI saat ini lebih tepat menjadi asisten profesional, belum mampu menggantikan peran manusia di sektor hukum, konsultansi, dan keuangan.
Dua tahun lalu, CEO Microsoft Satya Nadella memprediksi AI akan menggantikan knowledge work—pekerjaan kantoran para pengacara, banker investasi, akuntan, hingga staf IT. Namun riset terbaru menunjukkan realitas yang jauh lebih lambat. Dalam uji coba tugas profesional nyata, AI terbaik di dunia bahkan tidak mampu menjawab benar seperempat dari soal yang diberikan.
Narasi bahwa AI akan segera menggantikan pekerja kantoran telah menjadi semacam dogma di industri teknologi global. Model fondasi semakin pintar. AI mampu menulis laporan, menyusun strategi, bahkan melakukan riset mendalam dalam hitungan detik. Tetapi ketika diuji dalam konteks pekerjaan nyata yang benar-benar dilakukan profesional, hasilnya mengejutkan.
Perusahaan penyedia data pelatihan AI, Mercor, merilis riset terbaru melalui benchmark bernama APEX-Agents. Alih-alih menguji pengetahuan umum, benchmark ini menguji kemampuan AI menjalankan tugas-tugas riil dari dunia konsultansi, hukum, dan perbankan investasi—tiga bidang yang selama ini dianggap paling rentan digantikan AI.
Hasilnya jauh dari ekspektasi. Bahkan model terbaik hanya mampu mencapai akurasi 24% dalam satu kali percobaan. Sisanya? Jawaban salah atau tidak menjawab sama sekali.
Riset terbaru menunjukkan AI belum siap menggantikan pekerja kantoran. Dalam tugas nyata hukum dan perbankan, akurasinya bahkan belum mencapai 25%.
Menurut CEO Mercor Brendan Foody seperti dikugip TechCrunch.com, kelemahan terbesar AI bukan pada kecerdasan logika, melainkan pada kemampuannya menavigasi informasi lintas domain—sesuatu yang menjadi inti pekerjaan manusia di kantor.
“Salah satu perubahan besar dalam benchmark ini adalah kami membangun keseluruhan lingkungan kerja, meniru layanan profesional nyata. Cara kita bekerja bukan dengan satu konteks lengkap di satu tempat. Dalam kenyataan, kita berpindah antara Slack, Google Drive, dan berbagai alat lain,” ujar Brendan Foody.
Inilah titik lemah AI saat ini. AI sangat baik ketika semua informasi diberikan rapi dalam satu konteks. Tetapi dunia kerja nyata tidak seperti itu. Seorang pengacara misalnya, harus membaca kebijakan internal perusahaan, menautkannya dengan regulasi Uni Eropa, lalu mengambil keputusan hukum.
Seorang banker investasi harus menghubungkan laporan keuangan, proyeksi pasar, dan kebijakan regulator. Ini bukan sekadar soal menjawab pertanyaan, tetapi merangkai konteks yang tersebar.
Salah satu soal dalam kategori hukum menggambarkan kompleksitas ini: apakah ekspor log data dari Uni Eropa ke AS dalam situasi tertentu melanggar Pasal 49 regulasi privasi? Jawaban benar adalah ya. Namun untuk sampai ke sana, AI harus memahami kebijakan internal perusahaan sekaligus hukum privasi Uni Eropa.
OpenAI sebelumnya merilis benchmark GDPval untuk mengukur kemampuan profesional AI. Namun APEX-Agents berbeda. Ia tidak menguji pengetahuan luas lintas profesi, tetapi ketahanan AI menjalankan tugas berkelanjutan dalam profesi bernilai tinggi. Hasilnya menjadi lebih relevan terhadap satu pertanyaan besar: apakah pekerjaan ini benar-benar bisa diautomasi? Untuk saat ini, jawabannya belum.
Gemini 3 Flash mencatat skor tertinggi dengan 24%, disusul GPT-5.2 dengan 23%. Model lain bahkan berada di kisaran 18%.
Foody mengibaratkan performa AI saat ini seperti magang yang benar seperempat kali. Setahun lalu, angkanya hanya 5%–10%. Artinya, kemajuan memang cepat. Tetapi jaraknya dengan kemampuan profesional manusia masih sangat lebar.
Dan di sinilah paradoks AI modern terlihat jelas. AI sangat mengesankan dalam demo. Tetapi ketika masuk ke realitas pekerjaan profesional yang penuh konteks, koordinasi, dan intuisi, ia masih sering tersesat.
Implikasi untuk Dunia Kerja dan Industri Keuangan
Bagi sektor jasa keuangan, hukum, dan konsultansi—termasuk di Indonesia—temuan ini penting. Banyak institusi khawatir AI akan segera menggantikan analis kredit, staf legal, auditor, hingga analis risiko. Kenyataannya, AI saat ini lebih cocok menjadi asisten cerdas ketimbang pengganti.
Ia mempercepat riset. Membantu menyusun draf. Menghemat waktu. Tetapi belum bisa dipercaya mengambil keputusan profesional lintas konteks. Ini sekaligus menjadi pengingat bahwa transformasi digital bukan soal mengganti manusia dengan mesin, melainkan menggabungkan kecerdasan manusia dengan kecerdasan buatan.
Digionary:
● APEX-Agents: Benchmark yang menguji kemampuan AI menjalankan tugas profesional nyata.
● Agentic AI: AI yang mampu merencanakan dan menjalankan tugas secara mandiri.
● Benchmark: Standar pengujian untuk mengukur performa sistem.
● Knowledge Work: Pekerjaan berbasis analisis, pengetahuan, dan pengambilan keputusan.
● Lintas Domain: Kemampuan menghubungkan informasi dari berbagai sumber dan konteks.
● Model Fondasi: Model AI besar yang dilatih dengan data luas untuk berbagai tugas.
#AI #ArtificialIntelligence #AgenticAI #FutureOfWork #KnowledgeWork #Fintech #LegalTech #BenchmarkAI #DigitalTransformation #AIWorkplace #GPT5 #GeminiAI #Automation #TechResearch #Mercor #KecerdasanBuatan #IndustriKeuangan #Produktivitas #AIIndonesia #HumanPlusAI
