Hầu hết dữ liệu web trong các ngôn ngữ (rất) ít tài nguyên là Kinh Thánh và Wikipedia. Còn lại thì sao? Nhóm dữ liệu @huggingface đã chạy Gemma3 27B trong 3 tháng để dịch sang tiếng Anh, nhằm cải thiện các mô hình dịch và mang bối cảnh văn hóa từ hơn 500 cộng đồng ngôn ngữ vào dữ liệu đào tạo tiếng Anh. Đây là toàn bộ quy trình.