Tópicos em alta
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Alguém me diga o que estou perdendo aqui, porque a afirmação intitulada parece trivialmente falsa para mim:
eles definem um LLM como uma função que mapeia a sequência s em V^k para vetor em R^d
Suponha o estado oculto com precisão de n bits.  Em algum momento, há mais entradas possíveis do que estados ocultos:
|V|^k > 2^{n * d}
k > n d log(2) / log |V|
vamos pegar o GPT-2: n=16, d=768, V≈50.000
então as colisões *devem* acontecer a partir de um tamanho de janela de contexto de 214 tokens
Isso parece realmente meio ruim, certo?
Melhores
Classificação
Favoritos

