一站式 Web3 探索中心 | 去中心化應用商店 & Web3 線下活動 | OKX

熱門話題

好的，這是我在健身時能夠深入了解的 @Extropic_AI (@BasedBeffJezos) 的基本讀取。簡而言之：標準推理涉及進行一系列的序列和並行矩陣計算，但最終歸結為概率抽樣。Extropic 正在構建一個繞過所有數學機械的晶片，而是直接嵌入基礎訓練集的學習概率分佈，並直接從硬體中進行抽樣。這真的很酷！

在最基本的層面上，LLM（大型語言模型）使用一個由標記組成的龐大訓練集，並學習單詞、句子等之間的結構。它們並不是在推理，但實際上它們正在學習標記之間的極其複雜的概率分佈。例如，如果我問「天空是什麼顏色」，它會在學習到的概率分佈中查找，然後看到[「The」、「color」、「of」、「the」、「sky」、「is」、「blue」]作為最高概率的序列。它是通過進行一系列的矩陣計算得出的。如果你想了解這個過程的機制，可以去閱讀原始的Transformer論文，但老實說，這並不是那麼重要。重要的是這一點： 1. 訓練步驟：輸入大型數據集 --> 輸出標記的概率分佈。 2. 推理步驟：輸入查詢 --> 在概率抽樣下輸出映射。順便說一下，從後見之明來看，真的很酷（雖然有點明顯）的結果是……LLM是單射且可逆的！這意味著從提示到潛在空間之間有一個唯一的映射，反之亦然。真是太酷了！

無論如何，Extropic 團隊的工作非常酷！順便提一下，今天是腿部訓練，真是太棒了。

39.69K