Tendencias del momento
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Andrej Karpathy
Construyendo @EurekaLabsAI. Anteriormente Director de IA @ Tesla, equipo fundador @ OpenAI, CS231n/PhD @ Stanford. Me gusta entrenar grandes redes neuronales profundas.
Nueva publicación: miniserie nanochat v1
La forma correcta de pensar sobre los LLMs es que no estás optimizando para un modelo específico, sino para una familia de modelos controlados por un solo dial (el cómputo que deseas gastar) para lograr resultados monotonamente mejores. Esto te permite hacer una ciencia cuidadosa de las leyes de escalado y, en última instancia, esto es lo que te da la confianza de que cuando pagas por "la gran ejecución", la extrapolación funcionará y tu dinero estará bien gastado. Para el primer lanzamiento público de nanochat, mi enfoque fue en una tubería de extremo a extremo que ejecuta toda la tubería LLM con todas sus etapas. Ahora, después de hacer algunos intentos antes, estoy volviendo para desarrollar algunas de las partes que aceleré, comenzando, por supuesto, con el preentrenamiento, que es tanto computacionalmente pesado como crítico como la base de la inteligencia y el conocimiento en estos modelos.
Después de ajustar localmente algunos de los hiperparámetros, descarté varios modelos fijando el presupuesto de FLOPs. (Para cada objetivo de FLOPs, puedes entrenar un modelo pequeño durante mucho tiempo, o un modelo grande durante poco tiempo). Resulta que nanochat obedece leyes de escalado muy agradables, reproduciendo básicamente los gráficos del artículo de Chinchilla:
Lo cual es solo una versión pequeña de este gráfico de Chinchilla:
Muy importante y alentador, el exponente en N (parámetros) y D (tokens) es igual a aproximadamente 0.5, así que, al igual que Chinchilla, obtenemos una constante (independiente del cómputo) que relaciona el tamaño del modelo con los horizontes de entrenamiento de tokens. En Chinchilla, esto se midió en 20. En nanochat parece ser 8!
Una vez que podamos entrenar modelos óptimos en cómputo, descarté una miniserie de d10 a d20, que son tamaños de nanochat que pueden hacer 2**19 ~= 0.5M tamaños de lote en un nodo 8XH100 sin acumulación de gradientes. Obtenemos gráficos de entrenamiento bonitos y no intersecados para cada tamaño de modelo.
Luego, la parte divertida es relacionar esta miniserie v1 con las miniseries de GPT-2 y GPT-3 para que sepamos que estamos en el camino correcto. La pérdida de validación tiene muchos problemas y no es comparable, así que en su lugar utilizo la puntuación CORE (del artículo DCLM). La calculé para GPT-2 y la estimé para GPT-3, lo que nos permite finalmente colocar nanochat de manera adecuada y en la misma escala:
El costo total de esta miniserie es solo ~$100 (~4 horas en 8XH100). Estos experimentos nos dan confianza de que todo está funcionando bastante bien y que si pagamos más (giramos el dial), obtenemos modelos cada vez mejores.
Resumen: podemos entrenar miniseries óptimas en cómputo y relacionarlas con GPT-2/3 a través de puntuaciones CORE objetivas, pero se desean y necesitan más mejoras. Por ejemplo, igualar a GPT-2 actualmente necesita ~$500, pero en mi opinión debería ser posible hacerlo por menos de $100 con más trabajo.
La publicación completa con mucho más detalle está aquí:
Y todo el ajuste y el código se ha subido a master y la gente puede reproducir esto con los scripts bash scaling_laws .sh y miniseries .sh.




1,15K
¡El primer viaje 100% autónomo de costa a costa en Tesla FSD V14.2! 2 días 20 horas, 2732 millas, cero intervenciones.
Este es especial porque el viaje de costa a costa fue un objetivo importante para el equipo de piloto automático desde el principio. Se pasaron muchas horas en sesiones de revisión de clips maratónicas hasta altas horas de la noche revisando intervenciones mientras intentábamos tramos del viaje a lo largo del tiempo - triando, categorizando, planificando todos los proyectos para cerrar la brecha y llevar el número de intervenciones a cero.
¡Increíble ver cómo el sistema realmente lo logra y enormes felicitaciones al equipo!

David Moss31 dic 2025
¡Estoy orgulloso de anunciar que he completado con éxito el primer viaje autónomo completamente desde la costa oeste a la costa este de EE. UU.!
Salí del Tesla Diner en Los Ángeles hace 2 días y 20 horas, y ahora he terminado en Myrtle Beach, SC (2,732.4 millas)
Esto se logró con Tesla FSD V14.2 sin ninguna desconexión de ningún tipo, incluso para todo el estacionamiento, incluyendo en los Supercargadores de Tesla.

432
Parte superior
Clasificación
Favoritos
