Rubriques tendance
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
quelqu'un peut-il me dire ce que je manque ici, car la revendication intitulée me semble trivialement fausse :
ils définissent un LLM comme une fonction qui associe une séquence s dans V^k à un vecteur dans R^d
supposons un état caché en précision n bits. à un certain moment, il y a plus d'entrées possibles que d'états cachés :
|V|^k > 2^{n * d}
k > n d log(2) / log |V|
prenons GPT-2 : n=16, d=768, V≈50,000
alors des collisions *doivent* se produire à partir d'une taille de fenêtre de contexte de 214 tokens
cela semble en fait plutôt mauvais, non ?
Meilleurs
Classement
Favoris

