Algunos trabajos nuevos con @aldrmv @angeloskath y @GrangierDavid: Entrenamiento con reconocimiento de cuantificación óptima de cálculo @aldrmv creado una ley de escala que puede responder muchas preguntas útiles, que incluyen: - Para un presupuesto de token dado, ¿cuánta capacitación debe tener en cuenta la previsión completa frente a la cuantificación? - Para un presupuesto de memoria determinado, ¿cuál es la cuantificación óptima? - ¿Cómo cambia la fracción de entrenamiento consciente de la cuantificación a medida que aumenta los tokens de entrenamiento?