一站式 Web3 探索中心 | 去中心化應用商店 & Web3 線下活動 | OKX

熱門話題

有人告訴我我在這裡錯過了什麼，因為這個標題的主張對我來說似乎明顯是錯誤的：他們將 LLM 定義為一個將序列 s 映射到 R^d 中向量的函數，序列 s 在 V^k 中。假設隱藏狀態為 n 位精度。在某個時刻，可能的輸入數量超過隱藏狀態的數量： |V|^k > 2^{n * d} k > n d log(2) / log |V| 讓我們以 GPT-2 為例：n=16，d=768，V≈50,000 那麼從 214 個標記的上下文窗口大小開始，碰撞 *必須* 發生。這似乎實際上有點糟糕，對吧？