一站式 Web3 探索中心 | 去中心化應用商店 & Web3 線下活動 | OKX

熱門話題

Robert Youssef

天啊……這篇來自MIT的論文靜靜地解釋了模型如何在完全卡住的情況下自我學習推理 🤯 核心思想看似簡單：推理失敗是因為學習沒有任何依據可依賴。當模型的成功率降到接近零時，強化學習就無法運作。沒有獎勵信號。沒有梯度。沒有改進。模型並不是「推理能力差」——它被困在可學習性的邊緣之外。這篇論文重新框架了這個問題。他們不再問「我們如何讓模型解決更難的問題？」而是問：「模型如何創造可以學習的問題？」這就是SOAR的用武之地。 SOAR將一個預訓練的模型分為兩個角色： • 一個嘗試極難目標問題的學生 • 一個為學生生成新訓練問題的老師但這個限制是殘酷的。老師不會因為聰明的問題、多樣性或現實性而獲得獎勵。只有當學生在一組固定的真實評估問題上表現改善時，才會獲得獎勵。沒有改進？沒有獎勵。這完全改變了動態。老師不再優化美學或新穎性。而是優化學習進展。隨著時間的推移，老師發現了一些人類通常手動編碼的東西：中間問題。不是目標任務的解決版本。不是簡化的副本。而是剛好在學生當前能力邊界內的問題——足夠接近以便學習，卻又足夠遠以便重要。這裡有個驚人的部分。那些生成的問題不需要正確答案。它們甚至不需要老師能解決。重要的是結構。如果問題迫使學生朝正確的方向推理，即使沒有完美的監督，梯度信號也會出現。學習是通過掙扎而非模仿發生的。這就是為什麼SOAR在直接強化學習失敗的地方有效。學生不是撞上獎勵懸崖，而是攀登一個它幫助建造的樓梯。實驗清楚地表明了這一點。在模型從絕對零開始的基準上——字面上是0次成功——標準方法平穩無波。使用SOAR時，隨著課程圍繞模型的內部知識重塑，表現開始穩步上升。這是一個安靜但激進的轉變。我們通常認為推理受到模型大小、數據規模或訓練計算的限制。這篇論文提出了另一個瓶頸：糟糕的學習環境。如果模型能夠生成自己的踏腳石，許多「推理限制」就不再是限制。不需要新的架構。不需要額外的人類標籤。不需要更大的模型。只需要更好的激勵來促進學習的展開。不舒服的含義是：推理的平臺並不是根本性的。它們是自我造成的。而前進的道路不是強迫模型更努力思考，而是讓它們決定接下來學習什麼。