Jemné doladění agentů LLM bez jemného doladění LLM! Představte si, že zlepšujete výkon svého agenta AI na základě zkušeností, aniž byste se dotkli vah modelu. Je to stejné, jako když si lidé pamatují minulé epizody a učí se z nich. Přesně to dělá Memento. Základní koncepce: Namísto aktualizace vah LLM se Memento učí ze zkušeností s využitím paměti. Přetváří kontinuální učení jako online zpětnovazební učení založené na paměti přes paměťově rozšířený MDP. Berte to jako to, že dáte svému agentovi sešit, aby si zapamatoval, co fungovalo a co ne! Jak to funguje? Systém se dělí na dvě klíčové součásti: 1️⃣ Case-Based Reasoning (CBR) v praxi: Rozkládá složité úkoly na dílčí úkoly a získává relevantní minulé zkušenosti. Nejsou potřeba žádné přechody, jen chytré načítání paměti! 2️⃣ Vykonavatel závěti Provádí každý dílčí úkol pomocí nástrojů MCP a zaznamenává výsledky do paměti pro budoucí použití. Prostřednictvím MCP může vykonavatel provádět většinu úkolů v reálném světě a má přístup k následujícím nástrojům: 🔍 Webový výzkum 📄 Manipulace s dokumenty 🐍 Bezpečné spuštění v Pythonu 📊 Analýza dat 🎥 Zpracování médií Zjistil jsem, že je to opravdu dobrá cesta k vytvoření agentů podobných lidem. 👉 A co si o tom myslíte vy? Příslušné odkazy jsem sdílel v dalším tweetu! _____ Sdílejte to se svou sítí, pokud vám to připadalo ♻️ užitečné Najděte mě → @akshay_pachaar pro více postřehů a výukových programů o umělé inteligenci a strojovém učení!
49,15K