Чи може штучний інтелект насправді автоматизувати роботу? @Scale_AI та @ai_risks запускають Індекс віддаленої праці (RLI), перший бенчмарк і публічну таблицю лідерів, які перевіряють, наскільки добре агенти штучного інтелекту можуть виконувати реальну оплачувану фріланс-роботу в таких сферах, як розробка програмного забезпечення, дизайн, архітектура, аналіз даних тощо. Ранні результати показують обмеженість сьогоднішніх моделей. Найкращий агент зі штучним інтелектом виконав лише 2,5% реальних фрілансерських завдань краще, ніж люди. Штучний інтелект потужний, але ще недостатньо надійний, щоб замінити кваліфіковану робочу силу. RLI надає нам прозорий спосіб відстежувати прогрес у часі та вносити ясність у майбутнє роботи.