熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
我大約在兩週前讓全自動強化學習驅動的飛行運作起來,但在某個時候,它失去了功能。我修復了大約四個非常糟糕的錯誤,然後它才再次開始運作。實在是令人恐懼。我真的打算回退。
硬體加上神經網絡實際上是非常困難的。
瘋狂的是,這個政策實際上仍然有效。我的意思是,如果我眯起眼睛,我可以看到那些最終導致失敗的退化行為。根本原因是一個可怕、可怕的錯誤(觀察中左右傳感器互換了!)
我曾經想過:也許我應該從遙控汽車開始,而不是遙控多旋翼飛行器——但我很高興我選擇了多旋翼飛行器。遙控汽車會太寬容,我的基礎設施不需要像今天這樣好。
我需要坐下來仔細思考我的端到端測試。理想的情況是有一個端到端測試,其中我有物理模擬器和訓練器運行,並且多個實際的物理多旋翼在黑暗的房間中自動發射和測試。
我面臨的問題主要是我的硬體基礎設施變化得太快。每週我都有新的多旋翼框架、新的控制軟體、新的雙向通信鏈路韌體、新的感測器..
疼痛
其實,這就是QA的計劃。不如早點建設,而不是晚點。
@BigwetRealism 使用強化學習讓我感到驚訝;它會學習策略來收集有關世界的資訊,並在其隱藏狀態下進行利用。真的很瘋狂
@BigwetRealism 人們不做 RL 的原因是因為他們很糟糕。他們不想花 4 個月的時間從零開始用 cuda 寫模擬。
@BigwetRealism 我真的很受時間限制。我幾乎沒有時間。
@BigwetRealism 我有很多科學的事情想嘗試。我只需要建立基礎設施,賣一些東西,然後雇人來幫助我。
@BigwetRealism 這是一個數據點給你
我最大的問題是建模物理
比起學習行為的新方法,更能幫助我的是學習環境的新方法
178
熱門
排行
收藏
