熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
有人告訴我我在這裡錯過了什麼,因為這個標題的主張對我來說似乎明顯是錯誤的:
他們將 LLM 定義為一個將序列 s 映射到 R^d 中向量的函數,序列 s 在 V^k 中。
假設隱藏狀態為 n 位精度。在某個時刻,可能的輸入數量超過隱藏狀態的數量:
|V|^k > 2^{n * d}
k > n d log(2) / log |V|
讓我們以 GPT-2 為例:n=16,d=768,V≈50,000
那麼從 214 個標記的上下文窗口大小開始,碰撞 *必須* 發生。
這似乎實際上有點糟糕,對吧?
熱門
排行
收藏

