La maggior parte dei dati web nelle lingue a (molto) bassa risorsa è costituita da Bibbia e Wikipedia. E il resto? Il team dati di @huggingface ha eseguito Gemma3 27B per 3 mesi per tradurlo in inglese, per migliorare i modelli di traduzione e per portare il contesto culturale da oltre 500 comunità linguistiche nei dati di addestramento in inglese. Ecco l'intero processo.