Мы выпускаем крупномасштабный синтетический набор данных: 💬FineTranslations. Мы взяли 🥂 FineWeb2, наш многоязычный набор данных для предварительного обучения, и перевели его на английский с помощью Gemma3 27B. Результат — это огромный параллельный корпус, содержащий более 1 триллиона токенов!