Trendaavat aiheet
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Voi helvetti... Stanford osoitti juuri, miksi LLM:t kuulostavat fiksuilta, mutta epäonnistuvat silti, kun todellisuus vastustaa.
Tämä artikkeli käsittelee brutaalia epäonnistumistilaa, jonka kaikki rakennusagentit ovat nähneet: anna mallille alimääritelty tehtävä, ja se näkee iloisesti harhoja puuttuvista osista, tuottaen suunnitelman, joka näyttää sujuvalta ja romahtaa toteutuksessa.
Ydinoivallus on yksinkertainen mutta tuhoisa pelkästään kehotteisiin perustuville lähestymistavat: päättely katkeaa, kun ennakkoehdot ovat tuntemattomia. Ja useimmat todelliset tehtävät ovat täynnä tuntemattomia.
Stanfordin ratkaisu on nimeltään Self-Querying Bidirectional Categorical Planning (SQ-BCP), ja se pakottaa mallit lopettamaan teeskentelyn tietävänsä asioita, joita eivät tiedä.
Sen sijaan, että oletettaisiin puuttuvia faktoja, jokainen teko seuraa eksplisiittisesti edellytyksiään seuraavasti:
• Tyytyväinen
• Rikottu
• Tuntematon
Tuntematon on avain. Kun malli osuu tuntemattomaan, sitä ei sallita edetä.
Sen täytyy joko:
1. Kysy kohdennettu kysymys puuttuvan faktan ratkaisemiseksi
tai
2. Ehdota siltatoimintoa, joka asettaa ehdon ensin (mittaa, tarkista, valmistele jne.)
Vasta kun kaikki ennakkoehdot on ratkaistu, suunnitelma voi jatkua.
Mutta tässä on todellinen läpimurto: suunnitelmia ei hyväksytä, koska ne näyttävät olevan lähellä tavoitetta.
Ne hyväksytään vain, jos ne läpäisevät virallisen vahvistusvaiheen kategoriateettisilla takaisinvetotarkistuksilla. Samankaltaisuuspisteitä käytetään vain sijoituksessa, ei koskaan oikeellisuudessa.
...

Johtavat
Rankkaus
Suosikit
