Caramba… Stanford acabou de mostrar por que os LLMs parecem inteligentes, mas ainda falham no momento em que a realidade se impõe. Este artigo aborda um modo de falha brutal que todos que constroem agentes já viram: dar a um modelo uma tarefa mal especificada e ele felizmente alucina as peças que faltam, produzindo um plano que parece fluente e colapsa na execução. A percepção central é simples, mas devastadora para abordagens apenas baseadas em prompts: o raciocínio quebra quando as pré-condições são desconhecidas. E a maioria das tarefas do mundo real está cheia de incógnitas. A solução de Stanford é chamada de Planejamento Categórico Bidirecional de Auto-Consulta (SQ-BCP), e força os modelos a parar de fingir que sabem coisas que não sabem. Em vez de assumir fatos ausentes, cada ação rastreia explicitamente suas pré-condições como: • Satisfeita • Violada • Desconhecida Desconhecida é a chave. Quando o modelo encontra um desconhecido, não é permitido prosseguir. Ele deve ou: 1. Fazer uma pergunta direcionada para resolver o fato ausente ou 2. Propor uma ação de ligação que estabeleça a condição primeiro (medir, verificar, preparar, etc.) Somente após todas as pré-condições serem resolvidas é que o plano pode continuar. Mas aqui está a verdadeira inovação: os planos não são aceitos porque parecem próximos do objetivo. Eles são aceitos apenas se passarem por uma etapa de verificação formal usando checagens de pullback teóricas de categoria. Pontuações de similaridade são usadas apenas para classificação, nunca para correção. ...