Wir veröffentlichen einen groß angelegten synthetischen Datensatz: 💬FineTranslations. Wir haben 🥂 FineWeb2, unseren mehrsprachigen Pre-Training-Datensatz, genommen und ihn mit Gemma3 27B ins Englische übersetzt. Das Ergebnis ist ein massives paralleles Korpus mit mehr als 1 Billion Tokens!