Estamos a lançar um conjunto de dados sintético em grande escala: 💬FineTranslations. Pegámos no 🥂 FineWeb2, o nosso conjunto de dados de pré-treinamento multilíngue, e traduzimo-lo para inglês usando o Gemma3 27B. O resultado é um enorme corpus paralelo, com mais de 1 trilhão de tokens!