De meeste webdata in (zeer) laagresource talen is de Bijbel en Wikipedia. De rest? @huggingface datateam heeft Gemma3 27B drie maanden laten draaien om het in het Engels te vertalen, om vertaalmodellen te verbeteren en om culturele context van 500+ taalgemeenschappen in Engelse trainingsdata te brengen. Hier is de volledige pipeline