大多數(非常)低資源語言的網絡數據是聖經和維基百科。其餘的呢?@huggingface 數據團隊運行了 Gemma3 27B 三個月,將其翻譯成英語,以改善翻譯模型,並將來自 500 多個語言社區的文化背景帶入英語訓練數據。這是完整的流程