De fleste nettdata på (veldig) lavressursspråk er Bibelen og Wikipedia. Resten? Datateamet @huggingface kjørte Gemma3 27B i 3 måneder for å oversette det til engelsk, forbedre oversettelsesmodeller og bringe kulturell kontekst fra 500+ språksamfunn inn i engelsk treningsdata. Her er hele pipelinen