熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁

Robert Youssef
天啊……這篇來自MIT的論文靜靜地解釋了模型如何在完全卡住的情況下自我學習推理 🤯
核心思想看似簡單:
推理失敗是因為學習沒有任何依據可依賴。
當模型的成功率降到接近零時,強化學習就無法運作。沒有獎勵信號。沒有梯度。沒有改進。模型並不是「推理能力差」——它被困在可學習性的邊緣之外。
這篇論文重新框架了這個問題。
他們不再問「我們如何讓模型解決更難的問題?」
而是問:「模型如何創造可以學習的問題?」
這就是SOAR的用武之地。
SOAR將一個預訓練的模型分為兩個角色:
• 一個嘗試極難目標問題的學生
• 一個為學生生成新訓練問題的老師
但這個限制是殘酷的。
老師不會因為聰明的問題、多樣性或現實性而獲得獎勵。
只有當學生在一組固定的真實評估問題上表現改善時,才會獲得獎勵。
沒有改進?沒有獎勵。
這完全改變了動態。
老師不再優化美學或新穎性。
而是優化學習進展。
隨著時間的推移,老師發現了一些人類通常手動編碼的東西:
中間問題。
不是目標任務的解決版本。
不是簡化的副本。
而是剛好在學生當前能力邊界內的問題——足夠接近以便學習,卻又足夠遠以便重要。
這裡有個驚人的部分。
那些生成的問題不需要正確答案。
它們甚至不需要老師能解決。
重要的是結構。
如果問題迫使學生朝正確的方向推理,即使沒有完美的監督,梯度信號也會出現。學習是通過掙扎而非模仿發生的。
這就是為什麼SOAR在直接強化學習失敗的地方有效。
學生不是撞上獎勵懸崖,而是攀登一個它幫助建造的樓梯。
實驗清楚地表明了這一點。
在模型從絕對零開始的基準上——字面上是0次成功——標準方法平穩無波。使用SOAR時,隨著課程圍繞模型的內部知識重塑,表現開始穩步上升。
這是一個安靜但激進的轉變。
我們通常認為推理受到模型大小、數據規模或訓練計算的限制。
這篇論文提出了另一個瓶頸:
糟糕的學習環境。
如果模型能夠生成自己的踏腳石,許多「推理限制」就不再是限制。
不需要新的架構。
不需要額外的人類標籤。
不需要更大的模型。
只需要更好的激勵來促進學習的展開。
不舒服的含義是:
推理的平臺並不是根本性的。
它們是自我造成的。
而前進的道路不是強迫模型更努力思考,而是讓它們決定接下來學習什麼。

天啊……史丹佛剛剛展示了為什麼大型語言模型聽起來聰明,但在現實挑戰下卻會失敗。
這篇論文探討了一個殘酷的失敗模式,所有建立代理的人都見過:給模型一個不明確的任務,它會愉快地幻想缺失的部分,產出一個看起來流暢的計劃,但在執行時卻崩潰。
核心見解很簡單,但對於僅依賴提示的方法來說卻是毀滅性的:當前提條件未知時,推理會中斷。而大多數現實世界的任務充滿了未知。
史丹佛的解決方案稱為自我查詢雙向類別規劃(SQ-BCP),它迫使模型停止假裝自己知道它們不知道的事情。
每個行動明確追蹤其前提條件,分別為:
• 滿足
• 違反
• 未知
未知是關鍵。當模型遇到未知時,它不被允許繼續。
它必須要麼:
1. 提出一個針對性的問題來解決缺失的事實
或
2. 提出一個橋接行動,首先建立條件(測量、檢查、準備等)
只有在所有前提條件解決後,計劃才能繼續。
但這裡的真正突破是:計劃不會因為看起來接近目標而被接受。
只有在通過使用類別理論的拉回檢查的正式驗證步驟後,計劃才會被接受。相似性分數僅用於排名,從不用於正確性。
翻譯:漂亮的計劃不算數。可執行的計劃才算數。
結果非常驚人。
在WikiHow和RecipeNLG任務中,隱藏約束的情況下:
• 資源違規從26%降至14.9%
• 以及15.7%降至5.8%
同時保持競爭力的質量分數。
更多的搜索沒有幫助。
更長的思考鏈沒有幫助。
即使是自我詢問也仍然錯過了約束。
實際上有效的是將不確定性視為一等公民,並拒絕在未解決之前繼續前進。
這篇論文靜靜地劃定了一條界線:
代理失敗不是關於模型大小。
而是關於假裝不完整的信息是完整的。
如果你想要能行動的代理,而不僅僅是敘述,這就是前進的方向。

58
熱門
排行
收藏
