¡Trabajando en el nuevo Grok 2.5 de código abierto! ¡Ya hemos podido hacer Hot Rod! Es pronto y puede fallar, pero lo que tenemos es: Un 268B MoE, 131k contexto, 8 expertos, RoPE, 64 cabezales de atención GQA con 8 cabezales KV, 64 capas. En cualquier momento solo 2 expertos están normalmente activos. ¡Hemos encontrado una manera de activar 4 simultáneamente con solo una pequeña caída de rendimiento, aproximadamente 1/3 más de memoria GPU y un aumento asombroso en las salidas de calidad! Si mantiene nuestras pruebas, publicaré un tutorial detallado.
Brian Roemmele
Brian Roemmele24 ago, 09:08
¡Pronto reescribiré este artículo para usar una versión compacta del NUEVO CÓDIGO ABIERTO GRATUITO @xai @Grok 2.5! Le mostraré cómo ajustar el modelo en sus datos para uso privado fuera de la nube en su computadora. ¡Esto mejorará la calidad en una magnitud! Trabajando en ello...
45.81K