🚀 Raport tehnic LongCat-Flash-Thinking-2601 – acum lansat complet! Perspective cheie: 🌍 RL agentic la scară largă (14 pagini de analize aprofundate!) 🔹 Scalarea mediului: O privire detaliată asupra pipeline-ului nostru automatizat care construiește 10.000+ medii executabile, verificabile, pe 20+ domenii. 🔹 Infrastructură RL: Un cadru DORA îmbunătățit care suportă antrenament asincron cu 32.000+ medii concurente, abordând probleme de stabilitate în sarcini cu coadă lungă și foarte eterogene. 🛡️ Robustețe în sălbăticie 🔹 Injecție de zgomot: Fără agenți "de seră". Analizăm sistematic zgomotul din lumea reală (zgomot de utilizator/uneltă) și îl injectăm direct în bucla de antrenament. 🔹 Curriculum RL: O strategie bazată pe curriculum care întărește treptat modelul în medii dezordonate și imperfecte. 🧠 Cadrul de gândire grea 🔹 Raționament paralel: Extinde lățimea generând multiple traiectorii de raționament independente. 🔹 Rezumare iterativă: Extinde profunzimea folosind un model sumar pentru a reflecta și sintetiza traiectorii paralele înainte de a lua decizii finale. 🔹 Memorie contextuală: Un modul de memorie construit special pentru a menține raționamentul coerent pe termen lung. ⚡ Atenție în zigzag 🔹 Proiectarea conectivității Zigzag combinând MLA + SSA pentru a reduce calculele, păstrând în același timp fluxul global de informații. 🔹 Trecerea la variante rare în timpul antrenamentului oferă o accelerare de 1,5× și suportă contexte cu 1 milion de tokenuri — punând bazele unor progrese viitoare în raționamentul agentic pe termen lung. 🔹 Explorează: 📊 Obține SOTA printre modele open-source în cadrul principalelor benchmark-uri agențice: căutare, utilizarea uneltelor, raționament matematic și programare. Dacă doriți mai multe detalii, nu ezitați să consultați raportul tehnic complet. • Hârtie: • Site web: • GitHub: • Îmbrățișare a faței: