übrigens. Ich habe kürzlich ein Papier darüber geschrieben! Für Transformer liegt die Zahl bei etwa 3,6 Bits pro Parameter. Man bräuchte also 25 GB ÷ 3,6 Bits ≈ 56,9 B Parameter, um Wikipedia genau zu memorieren. Das ist eigentlich ein ziemlich großes Modell.