我们正在发布一个大规模的合成数据集:💬FineTranslations。 我们使用 Gemma3 27B 将我们的多语言预训练数据集 🥂 FineWeb2 翻译成英语。 结果是一个庞大的平行语料库,超过 1 万亿个标记!