Temas en tendencia
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

:omer
Construyendo @FloorsFinance. GP @3point0_vc. Exdirector @AvalancheFDN / @avax. Doctorado en informática @eth. NFA y DYOR.
Así que, el coste estimado para lograr un rendimiento similar al de GPT-2 ha caído ~100 veces en los últimos ~7 años.

Andrej Karpathyhace 6 horas
Nuevo post: nanochat miniserie v1
La forma correcta de pensar en los LLMs es que no estás optimizando para un modelo específico único, sino para una familia de modelos controlados por un solo dial (el cálculo que quieres gastar) para lograr resultados monótonamente mejores. Esto te permite hacer una ciencia cuidadosa de escalar leyes y, en última instancia, esto es lo que te da la confianza de que cuando pagues por "la gran carrera", la extrapolación funcionará y tu dinero estará bien invertido. Para la primera versión pública de nanochat, me centré en un pipeline de extremo a extremo que ejecuta todo el pipeline del LLM con todas sus etapas. Ahora, después de hacer YOLO unas cuantas partidas antes, vuelvo para desarrollar algunas de las partes que repasé rápidamente, empezando, por supuesto, con el preentrenamiento, que es tanto computacionalmente pesado como crítico como base de inteligencia y conocimiento en estos modelos.
Después de ajustar localmente algunos de los hiperparámetros, eliminé varios modelos que arreglaban el presupuesto de los FLOPs. (Para cada objetivo FLOP puedes entrenar un modelo pequeño durante mucho tiempo, o un modelo grande durante un tiempo corto.) Resulta que el nanochat obedece muy buenas leyes de escala, básicamente reproduciendo los gráficos de papel de la chinchilla:
Que es solo una versión infantil de esta trama de Chinchilla:
Muy importante y alentador, el exponente en N (parámetros) y D (tokens) es igual a ~=0,5, así que, al igual que Chinchilla, obtenemos una única constante (independiente del cálculo) que relaciona el tamaño del modelo con los horizontes de entrenamiento de tokens. En Chinchilla, se midió en 20. ¡En nanochat parece ser 8!
Una vez que podemos entrenar modelos óptimos de cálculo, saqué una miniserie de d10 a d20, que son tamaños nanochat que pueden hacer 2**19 ~= 0,5M de tamaños de lote en nodos 8XH100 sin acumulación de gradiente. Obtenemos gráficos de entrenamiento bonitos, que no se intersectan para cada tamaño de modelo.
Luego la parte divertida es relacionar esta miniserie v1 con las miniseries GPT-2 y GPT-3 para saber que vamos por buen camino. La pérdida de validación tiene muchos problemas y no es comparable, así que en su lugar uso la puntuación CORE (del artículo DCLM). Lo calculé para GPT-2 y lo estimé para GPT-3, lo que nos permite finalmente poner nanochat de forma agradable y en la misma escala:
El coste total de esta miniserie es solo de ~$100 (~4 horas en 8XH100). Estos experimentos nos dan confianza en que todo funciona bastante bien y que si pagamos más (giramos el dial), obtenemos modelos cada vez mejores.
Resumen: podemos entrenar miniseries cóppimos y relacionarlas con GPT-2/3 mediante puntuaciones CORE objetivas, pero se desean y se necesitan mejoras adicionales. Por ejemplo, emparejar GPT-2 actualmente necesita ~500$, pero en mi opinión debería ser posible hacer <$100 con más trabajo.
La publicación completa con mucho más detalle está aquí:
Y todo el ajuste y código se empujan a masterizar y la gente puede reproducirlos con scaling_laws .sh y miniseries .sh scripts de bash.




25
No puedo enfatizar esto lo suficiente: las fichas respaldadas por reservas son un gran desbloqueo. Conoces tu peor valor de rescate mientras el potencial de mejora sigue sin límite. Si fusionas el mercado primario con un mercado monetario interno, la volatilidad empieza a acumularse en respaldo permanente.
Antes de ponernos serios con stablecoins + tokens de red, enviaremos un pequeño experimento "divertido" de fToken para probar y demostrar toda la pila @FloorsFinance.
50
Y será reemplazado por algo mejor en un ~mes.

Super Dario5 ene, 03:37
El código Claude con Opus 4.5 es la herramienta más potente jamás creada, punto.
20
Populares
Ranking
Favoritas
