Estamos lanzando un conjunto de datos sintético a gran escala: 💬FineTranslations. Tomamos 🥂 FineWeb2, nuestro conjunto de datos multilingüe previo al entrenamiento, y lo tradujimos al inglés usando Gemma3 27B. El resultado es un enorme corpus paralelo, ¡con más de 1 billón de tokens!