好的,這是我在健身時能夠深入了解的 @Extropic_AI (@BasedBeffJezos) 的基本讀取。 簡而言之:標準推理涉及進行一系列的序列和並行矩陣計算,但最終歸結為概率抽樣。Extropic 正在構建一個繞過所有數學機械的晶片,而是直接嵌入基礎訓練集的學習概率分佈,並直接從硬體中進行抽樣。 這真的很酷!
在最基本的層面上,LLM(大型語言模型)使用一個由標記組成的龐大訓練集,並學習單詞、句子等之間的結構。它們並不是在推理,但實際上它們正在學習標記之間的極其複雜的概率分佈。 例如,如果我問「天空是什麼顏色」,它會在學習到的概率分佈中查找,然後看到[「The」、「color」、「of」、「the」、「sky」、「is」、「blue」]作為最高概率的序列。它是通過進行一系列的矩陣計算得出的。如果你想了解這個過程的機制,可以去閱讀原始的Transformer論文,但老實說,這並不是那麼重要。 重要的是這一點: 1. 訓練步驟:輸入大型數據集 --> 輸出標記的概率分佈。 2. 推理步驟:輸入查詢 --> 在概率抽樣下輸出映射。 順便說一下,從後見之明來看,真的很酷(雖然有點明顯)的結果是……LLM是單射且可逆的!這意味著從提示到潛在空間之間有一個唯一的映射,反之亦然。真是太酷了!
無論如何,Extropic 團隊的工作非常酷! 順便提一下,今天是腿部訓練,真是太棒了。
39.69K