Ini sangat menarik! ScaleAI dan AI Risks baru saja merilis Indeks Tenaga Kerja Jarak Jauh (RLI)
- Tolok ukur Indeks Tenaga Kerja Jarak Jauh (RLI) baru Scale AI mengungkapkan bahwa bahkan agen AI paling canggih pun hampir tidak dapat melakukan pekerjaan jarak jauh dunia nyata dengan kualitas profesional.
- Yang berkinerja terbaik, Manus, hanya mencapai tingkat otomatisasi 2,5%, yang berarti hampir semua proyek masih membutuhkan keahlian manusia.
-Namun papan peringkat menunjukkan kemajuan yang stabil di seluruh model seperti Claude Sonnet 4.5, GPT-5, dan Gemini 2.5 Pro, mengisyaratkan bahwa otomatisasi penuh mungkin maju melalui penyempurnaan bertahap daripada lompatan.
Bisakah AI benar-benar mengotomatiskan pekerjaan?
@Scale_AI dan @ai_risks meluncurkan Indeks Tenaga Kerja Jarak Jauh (RLI), tolok ukur dan papan peringkat publik pertama yang menguji seberapa baik agen AI dapat menyelesaikan pekerjaan lepas berbayar nyata di domain seperti rekayasa perangkat lunak, desain, arsitektur, analisis data, dan banyak lagi.
Hasil awal menunjukkan batasan model saat ini. Agen AI teratas hanya menyelesaikan 2,5% pekerjaan freelance nyata lebih baik daripada manusia. AI kuat, tetapi belum cukup andal untuk menggantikan tenaga kerja terampil.
RLI memberi kami cara transparan untuk melacak kemajuan dari waktu ke waktu dan membawa kejelasan tentang masa depan pekerjaan.
Intelijen menjadi sangat murah. Pada 40x per tahun, permintaan *seharusnya* tumbuh. Terobosan itu bisa berarti semua orang dapat menjalankan AGI di laptop mereka. Ini gila.