Wydajemy dużą syntetyczną bazę danych: 💬FineTranslations. Wzięliśmy 🥂 FineWeb2, naszą wielojęzyczną bazę danych do wstępnego treningu, i przetłumaczyliśmy ją na angielski używając Gemma3 27B. Wynik to ogromny zbiór równoległych korpusów, z ponad 1 bilionem tokenów!