Subiecte populare
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
🚀 Raport tehnic LongCat-Flash-Thinking-2601 – acum lansat complet!
Perspective cheie:
🌍 RL agentic la scară largă (14 pagini de analize aprofundate!)
🔹 Scalarea mediului: O privire detaliată asupra pipeline-ului nostru automatizat care construiește 10.000+ medii executabile, verificabile, pe 20+ domenii.
🔹 Infrastructură RL: Un cadru DORA îmbunătățit care suportă antrenament asincron cu 32.000+ medii concurente, abordând probleme de stabilitate în sarcini cu coadă lungă și foarte eterogene.
🛡️ Robustețe în sălbăticie
🔹 Injecție de zgomot: Fără agenți "de seră". Analizăm sistematic zgomotul din lumea reală (zgomot de utilizator/uneltă) și îl injectăm direct în bucla de antrenament.
🔹 Curriculum RL: O strategie bazată pe curriculum care întărește treptat modelul în medii dezordonate și imperfecte.
🧠 Cadrul de gândire grea
🔹 Raționament paralel: Extinde lățimea generând multiple traiectorii de raționament independente.
🔹 Rezumare iterativă: Extinde profunzimea folosind un model sumar pentru a reflecta și sintetiza traiectorii paralele înainte de a lua decizii finale.
🔹 Memorie contextuală: Un modul de memorie construit special pentru a menține raționamentul coerent pe termen lung.
⚡ Atenție în zigzag
🔹 Proiectarea conectivității Zigzag combinând MLA + SSA pentru a reduce calculele, păstrând în același timp fluxul global de informații.
🔹 Trecerea la variante rare în timpul antrenamentului oferă o accelerare de 1,5× și suportă contexte cu 1 milion de tokenuri — punând bazele unor progrese viitoare în raționamentul agentic pe termen lung.
🔹 Explorează:
📊 Obține SOTA printre
modele open-source în cadrul principalelor benchmark-uri agențice: căutare, utilizarea uneltelor, raționament matematic și programare.
Dacă doriți mai multe detalii, nu ezitați să consultați raportul tehnic complet.
• Hârtie:
• Site web:
• GitHub:
• Îmbrățișare a faței:




Limită superioară
Clasament
Favorite
