Большинство веб-данных на (очень) языках с низкими ресурсами — это Библия и Википедия. Остальное? Команда данных @huggingface провела Gemma3 27B в течение 3 месяцев, чтобы перевести это на английский, улучшить модели перевода и привнести культурный контекст из более чем 500 языковых сообществ в данные для обучения на английском. Вот полный процесс.