Tienda de dapps | Hub de Web3 para eventos y juegos

Temas en tendencia

Andrej Karpathy

Construyendo @EurekaLabsAI. Anteriormente Director de IA @ Tesla, equipo fundador @ OpenAI, CS231n/PhD @ Stanford. Me gusta entrenar grandes redes neuronales profundas.

Nuevo post: nanochat miniserie v1 La forma correcta de pensar en los LLMs es que no estás optimizando para un modelo específico único, sino para una familia de modelos controlados por un solo dial (el cálculo que quieres gastar) para lograr resultados monótonamente mejores. Esto te permite hacer una ciencia cuidadosa de escalar leyes y, en última instancia, esto es lo que te da la confianza de que cuando pagues por "la gran carrera", la extrapolación funcionará y tu dinero estará bien invertido. Para la primera versión pública de nanochat, me centré en un pipeline de extremo a extremo que ejecuta todo el pipeline del LLM con todas sus etapas. Ahora, después de hacer YOLO unas cuantas partidas antes, vuelvo para desarrollar algunas de las partes que repasé rápidamente, empezando, por supuesto, con el preentrenamiento, que es tanto computacionalmente pesado como crítico como base de inteligencia y conocimiento en estos modelos. Después de ajustar localmente algunos de los hiperparámetros, eliminé varios modelos que arreglaban el presupuesto de los FLOPs. (Para cada objetivo FLOP puedes entrenar un modelo pequeño durante mucho tiempo, o un modelo grande durante un tiempo corto.) Resulta que el nanochat obedece muy buenas leyes de escala, básicamente reproduciendo los gráficos de papel de la chinchilla: Que es solo una versión infantil de esta trama de Chinchilla: Muy importante y alentador, el exponente en N (parámetros) y D (tokens) es igual a ~=0,5, así que, al igual que Chinchilla, obtenemos una única constante (independiente del cálculo) que relaciona el tamaño del modelo con los horizontes de entrenamiento de tokens. En Chinchilla, se midió en 20. ¡En nanochat parece ser 8! Una vez que podemos entrenar modelos óptimos de cálculo, saqué una miniserie de d10 a d20, que son tamaños nanochat que pueden hacer 2**19 ~= 0,5M de tamaños de lote en nodos 8XH100 sin acumulación de gradiente. Obtenemos gráficos de entrenamiento bonitos, que no se intersectan para cada tamaño de modelo. Luego la parte divertida es relacionar esta miniserie v1 con las miniseries GPT-2 y GPT-3 para saber que vamos por buen camino. La pérdida de validación tiene muchos problemas y no es comparable, así que en su lugar uso la puntuación CORE (del artículo DCLM). Lo calculé para GPT-2 y lo estimé para GPT-3, lo que nos permite finalmente poner nanochat de forma agradable y en la misma escala: El coste total de esta miniserie es solo de ~$100 (~4 horas en 8XH100). Estos experimentos nos dan confianza en que todo funciona bastante bien y que si pagamos más (giramos el dial), obtenemos modelos cada vez mejores. Resumen: podemos entrenar miniseries cóppimos y relacionarlas con GPT-2/3 mediante puntuaciones CORE objetivas, pero se desean y se necesitan mejoras adicionales. Por ejemplo, emparejar GPT-2 actualmente necesita ~500$, pero en mi opinión debería ser posible hacer <$100 con más trabajo. La publicación completa con mucho más detalle está aquí: Y todo el ajuste y código se empujan a masterizar y la gente puede reproducirlos con scaling_laws .sh y miniseries .sh scripts de bash.

Populares

Ranking

Favoritas