我們正在發布一個大規模的合成數據集:💬FineTranslations。 我們使用 Gemma3 27B 將我們的多語言預訓練數據集 🥂 FineWeb2 翻譯成英語。 結果是一個龐大的平行語料庫,擁有超過 1 兆個標記!