Większość danych internetowych w (bardzo) niskoresursowych językach to Biblia i Wikipedia. A reszta? Zespół danych @huggingface uruchomił Gemma3 27B przez 3 miesiące, aby przetłumaczyć to na angielski, poprawić modele tłumaczeń i wprowadzić kontekst kulturowy z ponad 500 społeczności językowych do danych treningowych w języku angielskim. Oto pełny proces.