一站式 Web3 探索中心 | 去中心化应用商店 & Web3 线下活动

热门话题

有人告诉我我在这里错过了什么，因为这个标题的说法在我看来似乎是显而易见的错误：他们将 LLM 定义为一个将 V^k 中的序列 s 映射到 R^d 中的向量的函数。假设隐藏状态为 n 位精度。在某个时刻，可能的输入数量超过了隐藏状态的数量： |V|^k > 2^{n * d} k > n d log(2) / log |V| 让我们以 GPT-2 为例：n=16，d=768，V≈50,000。那么从 214 个标记的上下文窗口大小开始，碰撞 *必须* 发生。这似乎实际上有点糟糕，对吧？