Temas en tendencia
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Que alguien me diga lo que me estoy perdiendo aquí, porque la afirmación titulada me parece trivialmente falsa:
definen un LLM como una función que asigna la secuencia s en V ^ k al vector en R ^ d
Supongamos un estado oculto con una precisión de n bits.  En algún momento, hay más entradas posibles que estados ocultos:
|V|^k > 2^{n * d}
k > n d log(2) / log |V|
tomemos GPT-2: n = 16, d = 768, V ≈ 50,000
entonces las colisiones *deben* ocurrir a partir de un tamaño de ventana de contexto de 214 tokens
Esto parece realmente un poco malo, ¿verdad?
Populares
Ranking
Favoritas

