Ми випускаємо великомасштабний синтетичний набір даних: 💬FineTranslations. Ми взяли 🥂 FineWeb2, наш багатомовний попередній набір даних, і переклали його англійською за допомогою Gemma3 27B. Результатом стала величезна паралельна корпуса з понад 1 трильйоном токенів!