大多数(非常)低资源语言的网络数据是《圣经》和维基百科。其他的呢?@huggingface 数据团队运行了 Gemma3 27B 三个月,将其翻译成英语,以改善翻译模型,并将来自 500 多个语言社区的文化背景引入英语训练数据。以下是完整的流程