Temas en tendencia
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Andrej Karpathy
Construyendo @EurekaLabsAI. Anteriormente Director de IA @ Tesla, equipo fundador @ OpenAI, CS231n/PhD @ Stanford. Me gusta entrenar grandes redes neuronales profundas.
Nuevo post: nanochat miniserie v1
La forma correcta de pensar en los LLMs es que no estás optimizando para un modelo específico único, sino para una familia de modelos controlados por un solo dial (el cálculo que quieres gastar) para lograr resultados monótonamente mejores. Esto te permite hacer una ciencia cuidadosa de escalar leyes y, en última instancia, esto es lo que te da la confianza de que cuando pagues por "la gran carrera", la extrapolación funcionará y tu dinero estará bien invertido. Para la primera versión pública de nanochat, me centré en un pipeline de extremo a extremo que ejecuta todo el pipeline del LLM con todas sus etapas. Ahora, después de hacer YOLO unas cuantas partidas antes, vuelvo para desarrollar algunas de las partes que repasé rápidamente, empezando, por supuesto, con el preentrenamiento, que es tanto computacionalmente pesado como crítico como base de inteligencia y conocimiento en estos modelos.
Después de ajustar localmente algunos de los hiperparámetros, eliminé varios modelos que arreglaban el presupuesto de los FLOPs. (Para cada objetivo FLOP puedes entrenar un modelo pequeño durante mucho tiempo, o un modelo grande durante un tiempo corto.) Resulta que el nanochat obedece muy buenas leyes de escala, básicamente reproduciendo los gráficos de papel de la chinchilla:
Que es solo una versión infantil de esta trama de Chinchilla:
Muy importante y alentador, el exponente en N (parámetros) y D (tokens) es igual a ~=0,5, así que, al igual que Chinchilla, obtenemos una única constante (independiente del cálculo) que relaciona el tamaño del modelo con los horizontes de entrenamiento de tokens. En Chinchilla, se midió en 20. ¡En nanochat parece ser 8!
Una vez que podemos entrenar modelos óptimos de cálculo, saqué una miniserie de d10 a d20, que son tamaños nanochat que pueden hacer 2**19 ~= 0,5M de tamaños de lote en nodos 8XH100 sin acumulación de gradiente. Obtenemos gráficos de entrenamiento bonitos, que no se intersectan para cada tamaño de modelo.
Luego la parte divertida es relacionar esta miniserie v1 con las miniseries GPT-2 y GPT-3 para saber que vamos por buen camino. La pérdida de validación tiene muchos problemas y no es comparable, así que en su lugar uso la puntuación CORE (del artículo DCLM). Lo calculé para GPT-2 y lo estimé para GPT-3, lo que nos permite finalmente poner nanochat de forma agradable y en la misma escala:
El coste total de esta miniserie es solo de ~$100 (~4 horas en 8XH100). Estos experimentos nos dan confianza en que todo funciona bastante bien y que si pagamos más (giramos el dial), obtenemos modelos cada vez mejores.
Resumen: podemos entrenar miniseries cóppimos y relacionarlas con GPT-2/3 mediante puntuaciones CORE objetivas, pero se desean y se necesitan mejoras adicionales. Por ejemplo, emparejar GPT-2 actualmente necesita ~500$, pero en mi opinión debería ser posible hacer <$100 con más trabajo.
La publicación completa con mucho más detalle está aquí:
Y todo el ajuste y código se empujan a masterizar y la gente puede reproducirlos con scaling_laws .sh y miniseries .sh scripts de bash.




782
¡El primer trayecto 100% autónomo de costa a costa en el Tesla FSD V14.2! 2 días, 20 horas, 2732 millas, cero intervenciones.
Este es especial porque el trayecto de costa a costa fue un objetivo principal para el equipo de piloto automático desde el principio. Se pasaron muchas horas en sesiones maratónicas de revisión de clips hasta altas horas de la noche revisando intervenciones mientras intentábamos avanzar en el trayecto: triar, categorizar, planificar todos los proyectos para cerrar la brecha y reducir el número de intervenciones a cero.
¡Es increíble ver cómo el sistema realmente ha llegado hasta ahí y muchísima felicidad al equipo!

David Moss31 dic 2025
¡Me enorgullece anunciar que he completado con éxito el primer viaje totalmente autónomo de costa a costa en Estados Unidos en el mundo!
Salí del Tesla Diner en Los Ángeles hace 2 días y 20 horas, y ahora he terminado en Myrtle Beach, SC (2.732,4 millas)
Esto se logró con el Tesla FSD V14.2 con absolutamente cero desacoples de ningún tipo, incluso en todos los aparcamientos, incluidos los supercargadores Tesla.

388
Populares
Ranking
Favoritas
