Estamos lanzando un conjunto de datos sintético a gran escala: 💬FineTranslations. Tomamos 🥂 FineWeb2, nuestro conjunto de datos de preentrenamiento multilingüe, y lo traducimos al inglés utilizando Gemma3 27B. ¡El resultado es un enorme corpus paralelo, con más de 1 billón de tokens!