Populære emner
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Etter mitt syn er SWE-bench og T-bench de få benchmarkene som har et godt signal når det gjelder hvor mye fremgang vi gjør med modeller. Denne modellen yter like bra som Qwen3-koder og er bare 10 % dårligere enn GPT-5, samtidig som den er en generell LLM i stedet for kodespesialisert.

11. aug., 11:43
Presenterer den tekniske rapporten for GLM-4.5! 👇
Dette arbeidet viser hvordan vi utviklet modeller som utmerker seg ved resonnement, koding og agentiske oppgaver gjennom et unikt treningsparadigme i flere trinn.
Viktige innovasjoner inkluderer iterasjon av ekspertmodeller med selvdestillasjon for å forene evner, en hybrid resonneringsmodus for dynamisk problemløsning og en vanskelighetsbasert læreplan for forsterkende læring.

28,14K
Topp
Rangering
Favoritter