Tendencias del momento
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

:omer
Construyendo @FloorsFinance. GP @3point0_vc. Exdirector @AvalancheFDN / @avax. Doctorado en informática @eth. NFA y DYOR.
Entonces, el costo estimado para lograr un rendimiento similar al de GPT-2 ha caído en aproximadamente 100 veces en los últimos 7 años.

Andrej KarpathyHace 13 horas
Nueva publicación: miniserie nanochat v1
La forma correcta de pensar sobre los LLMs es que no estás optimizando para un modelo específico, sino para una familia de modelos controlados por un solo dial (el cómputo que deseas gastar) para lograr resultados monotonamente mejores. Esto te permite hacer una ciencia cuidadosa de las leyes de escalado y, en última instancia, esto es lo que te da la confianza de que cuando pagas por "la gran ejecución", la extrapolación funcionará y tu dinero estará bien gastado. Para el primer lanzamiento público de nanochat, mi enfoque fue en una tubería de extremo a extremo que ejecuta toda la tubería LLM con todas sus etapas. Ahora, después de hacer algunos intentos antes, estoy volviendo para desarrollar algunas de las partes que aceleré, comenzando, por supuesto, con el preentrenamiento, que es tanto computacionalmente pesado como crítico como la base de la inteligencia y el conocimiento en estos modelos.
Después de ajustar localmente algunos de los hiperparámetros, descarté varios modelos fijando el presupuesto de FLOPs. (Para cada objetivo de FLOPs, puedes entrenar un modelo pequeño durante mucho tiempo, o un modelo grande durante poco tiempo). Resulta que nanochat obedece leyes de escalado muy agradables, reproduciendo básicamente los gráficos del artículo de Chinchilla:
Lo cual es solo una versión pequeña de este gráfico de Chinchilla:
Muy importante y alentador, el exponente en N (parámetros) y D (tokens) es igual a aproximadamente 0.5, así que, al igual que Chinchilla, obtenemos una constante (independiente del cómputo) que relaciona el tamaño del modelo con los horizontes de entrenamiento de tokens. En Chinchilla, esto se midió en 20. En nanochat parece ser 8!
Una vez que podamos entrenar modelos óptimos en cómputo, descarté una miniserie de d10 a d20, que son tamaños de nanochat que pueden hacer 2**19 ~= 0.5M tamaños de lote en un nodo 8XH100 sin acumulación de gradientes. Obtenemos gráficos de entrenamiento bonitos y no intersecados para cada tamaño de modelo.
Luego, la parte divertida es relacionar esta miniserie v1 con las miniseries de GPT-2 y GPT-3 para que sepamos que estamos en el camino correcto. La pérdida de validación tiene muchos problemas y no es comparable, así que en su lugar utilizo la puntuación CORE (del artículo DCLM). La calculé para GPT-2 y la estimé para GPT-3, lo que nos permite finalmente colocar nanochat de manera adecuada y en la misma escala:
El costo total de esta miniserie es solo ~$100 (~4 horas en 8XH100). Estos experimentos nos dan confianza de que todo está funcionando bastante bien y que si pagamos más (giramos el dial), obtenemos modelos cada vez mejores.
Resumen: podemos entrenar miniseries óptimas en cómputo y relacionarlas con GPT-2/3 a través de puntuaciones CORE objetivas, pero se desean y necesitan más mejoras. Por ejemplo, igualar a GPT-2 actualmente necesita ~$500, pero en mi opinión debería ser posible hacerlo por menos de $100 con más trabajo.
La publicación completa con mucho más detalle está aquí:
Y todo el ajuste y el código se ha subido a master y la gente puede reproducir esto con los scripts bash scaling_laws .sh y miniseries .sh.




30
No puedo enfatizar esto lo suficiente: los tokens respaldados por reservas son un gran desbloqueo. Conoces tu valor de redención en el peor de los casos mientras que el potencial de ganancias no tiene límite. Fusiona el mercado primario con un mercado monetario interno, y la volatilidad comienza a acumularse en un respaldo permanente.
Antes de profundizar en stablecoins + tokens de red, lanzaremos un pequeño experimento "divertido" de fToken para poner a prueba y demostrar todo el stack de @FloorsFinance.
55
Y será reemplazado por algo mejor en aproximadamente un mes.

Super Dario5 ene, 03:37
El código de Claude con Opus 4.5 es la herramienta más poderosa jamás creada, punto.
25
Parte superior
Clasificación
Favoritos
