Это очень интересно! ScaleAI и AI Risks только что выпустили Индекс Удаленной Работы (RLI) - Новый бенчмарк Индекса Удаленной Работы (RLI) от Scale AI показывает, что даже самые продвинутые AI-агенты едва ли могут выполнять реальные удаленные работы на профессиональном уровне. - Лучший результат, Manus, достиг всего лишь 2.5% уровня автоматизации, что означает, что почти все проекты все еще требовали человеческой экспертизы. - Тем не менее, таблица лидеров показывает стабильный прогресс среди моделей, таких как Claude Sonnet 4.5, GPT-5 и Gemini 2.5 Pro, намекая на то, что полная автоматизация может продвигаться вперед через постепенные улучшения, а не скачками.