a propósito. recentemente escrevi um artigo sobre isso! para transformadores, o número é cerca de 3,6 bits por parâmetro então você precisaria de 25GB ÷ 3,6 bits ≈ 56,9B parâmetros para memorizar exatamente a Wikipedia e isso é um modelo bastante grande, na verdade