Estamos lançando um conjunto de dados sintético em grande escala: 💬FineTranslations. Pegamos 🥂 o FineWeb2, nosso conjunto de dados multilíngue pré-treinamento, e o traduzimos para o inglês usando o Gemma3 27B. O resultado é um enorme corpus paralelo, com mais de 1 trilhão de tokens!