15T è lo stesso budget del pre-addestramento iniziale di kimi k2, per quanto ne so, questa è la prima volta che un team utilizza apertamente un checkpoint precedente per costruire un modello ancora più forte. Continueremo a vedere sempre più di questo intervento "in corso di addestramento" per cambiare architettura, modalità, migliorare il contesto lungo, dati più agentici.. questo è molto entusiasmante e rende possibile per altre aziende unirsi alla corsa (cursor?) grazie a fornitori come kimi (e altri come deepseek, meituan, zai,...) che rilasciano il modello di base.