热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲
有人告诉我我在这里错过了什么,因为这个标题的说法在我看来似乎是显而易见的错误:
他们将 LLM 定义为一个将 V^k 中的序列 s 映射到 R^d 中的向量的函数。
假设隐藏状态为 n 位精度。在某个时刻,可能的输入数量超过了隐藏状态的数量:
|V|^k > 2^{n * d}
k > n d log(2) / log |V|
让我们以 GPT-2 为例:n=16,d=768,V≈50,000。
那么从 214 个标记的上下文窗口大小开始,碰撞 *必须* 发生。
这似乎实际上有点糟糕,对吧?
热门
排行
收藏

