Nous publions un ensemble de données synthétiques à grande échelle : 💬FineTranslations. Nous avons pris 🥂 FineWeb2, notre ensemble de données multilingue de pré-entraînement, et l'avons traduit en anglais en utilisant Gemma3 27B. Le résultat est un corpus parallèle massif, avec plus de 1 trillion de tokens !