DApp Store | Web3 Hub tapahtumille ja peleille

Trendaavat aiheet

Voi helvetti... Stanford osoitti juuri, miksi LLM:t kuulostavat fiksuilta, mutta epäonnistuvat silti, kun todellisuus vastustaa. Tämä artikkeli käsittelee brutaalia epäonnistumistilaa, jonka kaikki rakennusagentit ovat nähneet: anna mallille alimääritelty tehtävä, ja se näkee iloisesti harhoja puuttuvista osista, tuottaen suunnitelman, joka näyttää sujuvalta ja romahtaa toteutuksessa. Ydinoivallus on yksinkertainen mutta tuhoisa pelkästään kehotteisiin perustuville lähestymistavat: päättely katkeaa, kun ennakkoehdot ovat tuntemattomia. Ja useimmat todelliset tehtävät ovat täynnä tuntemattomia. Stanfordin ratkaisu on nimeltään Self-Querying Bidirectional Categorical Planning (SQ-BCP), ja se pakottaa mallit lopettamaan teeskentelyn tietävänsä asioita, joita eivät tiedä. Sen sijaan, että oletettaisiin puuttuvia faktoja, jokainen teko seuraa eksplisiittisesti edellytyksiään seuraavasti: • Tyytyväinen • Rikottu • Tuntematon Tuntematon on avain. Kun malli osuu tuntemattomaan, sitä ei sallita edetä. Sen täytyy joko: 1. Kysy kohdennettu kysymys puuttuvan faktan ratkaisemiseksi tai 2. Ehdota siltatoimintoa, joka asettaa ehdon ensin (mittaa, tarkista, valmistele jne.) Vasta kun kaikki ennakkoehdot on ratkaistu, suunnitelma voi jatkua. Mutta tässä on todellinen läpimurto: suunnitelmia ei hyväksytä, koska ne näyttävät olevan lähellä tavoitetta. Ne hyväksytään vain, jos ne läpäisevät virallisen vahvistusvaiheen kategoriateettisilla takaisinvetotarkistuksilla. Samankaltaisuuspisteitä käytetään vain sijoituksessa, ei koskaan oikeellisuudessa. ...

Johtavat

Rankkaus

Suosikit