Tendencias del momento
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
alguien dígame qué me estoy perdiendo aquí, porque la afirmación titulada me parece trivialmente falsa:
definen un LLM como una función que mapea la secuencia s en V^k a un vector en R^d
supongamos un estado oculto en precisión de n bits. en algún momento, hay más entradas posibles que estados ocultos:
|V|^k > 2^{n * d}
k > n d log(2) / log |V|
tomemos GPT-2: n=16, d=768, V≈50,000
entonces las colisiones *deben* ocurrir a partir de un tamaño de ventana de contexto de 214 tokens
esto parece realmente algo malo, ¿verdad?
Parte superior
Clasificación
Favoritos

