DApp Store | Piattaforma Web3 per eventi e giochi

Argomenti di tendenza

Cazzo santo… Stanford ha appena dimostrato perché i LLM sembrano intelligenti ma falliscono nel momento in cui la realtà si fa sentire. Questo documento affronta una modalità di fallimento brutale che tutti coloro che costruiscono agenti hanno visto: dare a un modello un compito poco specificato e lui felicemente allucina i pezzi mancanti, producendo un piano che sembra fluido e collassa all'esecuzione. L'intuizione fondamentale è semplice ma devastante per gli approcci basati solo sui prompt: il ragionamento si interrompe quando le precondizioni sono sconosciute. E la maggior parte dei compiti nel mondo reale è piena di incognite. La soluzione di Stanford si chiama Self-Querying Bidirectional Categorical Planning (SQ-BCP), e costringe i modelli a smettere di fingere di sapere cose che non sanno. Invece di assumere fatti mancanti, ogni azione tiene traccia esplicita delle sue precondizioni come: • Soddisfatte • Violato • Sconosciuto Sconosciuto è la chiave. Quando il modello incontra un incognito, non è autorizzato a procedere. Deve o: 1. Porre una domanda mirata per risolvere il fatto mancante oppure 2. Proporre un'azione di collegamento che stabilisca prima la condizione (misurare, controllare, preparare, ecc.) Solo dopo che tutte le precondizioni sono risolte il piano può continuare. Ma ecco la vera innovazione: i piani non vengono accettati perché sembrano vicini all'obiettivo. Vengono accettati solo se superano un passo di verifica formale utilizzando controlli di pullback teorici delle categorie. I punteggi di somiglianza vengono utilizzati solo per il ranking, mai per la correttezza. ...

Principali

Ranking

Preferiti