Argomenti di tendenza
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Cazzo santo… Stanford ha appena dimostrato perché i LLM sembrano intelligenti ma falliscono nel momento in cui la realtà si fa sentire.
Questo documento affronta una modalità di fallimento brutale che tutti coloro che costruiscono agenti hanno visto: dare a un modello un compito poco specificato e lui felicemente allucina i pezzi mancanti, producendo un piano che sembra fluido e collassa all'esecuzione.
L'intuizione fondamentale è semplice ma devastante per gli approcci basati solo sui prompt: il ragionamento si interrompe quando le precondizioni sono sconosciute. E la maggior parte dei compiti nel mondo reale è piena di incognite.
La soluzione di Stanford si chiama Self-Querying Bidirectional Categorical Planning (SQ-BCP), e costringe i modelli a smettere di fingere di sapere cose che non sanno.
Invece di assumere fatti mancanti, ogni azione tiene traccia esplicita delle sue precondizioni come:
• Soddisfatte
• Violato
• Sconosciuto
Sconosciuto è la chiave. Quando il modello incontra un incognito, non è autorizzato a procedere.
Deve o:
1. Porre una domanda mirata per risolvere il fatto mancante
oppure
2. Proporre un'azione di collegamento che stabilisca prima la condizione (misurare, controllare, preparare, ecc.)
Solo dopo che tutte le precondizioni sono risolte il piano può continuare.
Ma ecco la vera innovazione: i piani non vengono accettati perché sembrano vicini all'obiettivo.
Vengono accettati solo se superano un passo di verifica formale utilizzando controlli di pullback teorici delle categorie. I punteggi di somiglianza vengono utilizzati solo per il ranking, mai per la correttezza.
...

Principali
Ranking
Preferiti
