Finalmente encontrei um bom caso de uso para subagentes. Tornando os modelos de políticas mais inteligentes ao construir automaticamente ambientes de RL a partir de dados de tarefas do mundo real. Caramba, realmente funciona!