Rubriques tendance
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Putain… Stanford vient de montrer pourquoi les LLM semblent intelligents mais échouent dès que la réalité se manifeste.
Cet article aborde un mode d'échec brutal que tout le monde construisant des agents a déjà rencontré : donner à un modèle une tâche mal spécifiée et il hallucine joyeusement les éléments manquants, produisant un plan qui semble fluide et s'effondre lors de l'exécution.
L'idée centrale est simple mais dévastatrice pour les approches basées uniquement sur les prompts : le raisonnement échoue lorsque les préconditions sont inconnues. Et la plupart des tâches du monde réel sont pleines d'inconnues.
La solution de Stanford s'appelle Self-Querying Bidirectional Categorical Planning (SQ-BCP), et elle force les modèles à arrêter de prétendre qu'ils savent des choses qu'ils ne savent pas.
Au lieu de supposer des faits manquants, chaque action suit explicitement ses préconditions comme suit :
• Satisfaites
• Violées
• Inconnues
Inconnue est la clé. Lorsque le modèle rencontre une inconnue, il n'est pas autorisé à avancer.
Il doit soit :
1. Poser une question ciblée pour résoudre le fait manquant
ou
2. Proposer une action de transition qui établit d'abord la condition (mesurer, vérifier, préparer, etc.)
Ce n'est qu'après que toutes les préconditions sont résolues que le plan peut continuer.
Mais voici la véritable percée : les plans ne sont pas acceptés parce qu'ils semblent proches de l'objectif.
Ils ne sont acceptés que s'ils passent une étape de vérification formelle utilisant des vérifications de pullback théoriques des catégories. Les scores de similarité ne sont utilisés que pour le classement, jamais pour la correction.
...

Meilleurs
Classement
Favoris
