如果您是一家風險投資/基金,正在關注加密貨幣與機器人領域: 這是您的投資 $CODEC
CodecFlow
CodecFlow8月22日 18:03
VLAs 仍然非常新,很多人发现很难理解 VLAs 和 LLMs 之间的区别。 這裡深入探討這些 AI 系統在推理、感知和行動方面的不同。第一部分。 讓我們分解關鍵區別,以及圍繞 LLM 包裝的 AI 代理與使用 VLA 模型的操作代理之間的不同: 1. 感知:它們如何感知世界 代理(LLM):處理文本或結構化數據,例如 JSON、API,有時還包括圖像。就像一個大腦處理乾淨、抽象的輸入。想像一下閱讀手冊或解析電子表格。適合結構化環境,但受限於輸入的數據。 操作員(VLA):從攝像頭獲取原始實時像素,以及傳感器數據(例如觸摸、位置)和本體感知(對運動的自我意識)。就像用眼睛和感官在世界中導航,適應動態、混亂的環境,如用戶界面或物理空間。 2. 行動:它們如何互動 代理:通過調用函數、工具或 API 來行動。想像它像一個經理發送精確的指令,比如“通過 Expedia API 預訂航班。”這是有意的,但依賴於預構建的工具和清晰的接口。 操作員:執行連續的低級動作,如移動鼠標光標、打字或控制機器人關節。就像一個熟練的工人直接操控環境,適合需要實時精確的任務。 3. 控制:它們如何做出決策 代理:遵循一個緩慢的反思循環:計劃、調用工具、評估結果、重複。它是受限於令牌(受限於文本處理)和網絡(等待 API 響應)。這使得它在實時任務中顯得方法論但緩慢。 操作員:在緊密的反饋循環中進行逐步決策。想像一下玩家對螢幕上的內容做出即時反應。這種速度使得流暢的互動成為可能,但需要強大的實時處理能力。 4. 學習數據:什麼推動它們的訓練 代理:在大量文本語料庫、指令、文檔或 RAG(檢索增強生成)數據集上進行訓練。它從書籍、代碼或常見問題中學習,擅長對結構化知識進行推理。 操作員:從演示(例如人類執行任務的視頻)、遠程操作日誌或獎勵信號中學習。就像通過觀察和實踐學習,適合那些明確指令稀缺的任務。 5. 失敗模式:它們的弱點 代理:容易出現幻覺(編造答案)或脆弱的長遠計劃,如果一步失敗就會崩潰。就像一個過度思考或誤讀情況的戰略家。 操作員:面臨協變量偏移(當訓練數據與真實世界條件不匹配)或控制中的累積錯誤(小錯誤積累)。就像一個司機在不熟悉的道路上失去控制。 6. 基礎設施:它們背後的技術 代理:依賴於提示/路由器來決定調用哪些工具,工具註冊表用於可用功能,以及記憶/RAG 用於上下文。這是一個模組化的設置,就像一個指揮中心協調任務。 操作員:需要視頻攝取管道、實時控制的動作伺服器、安全保護以防止有害行為,以及重放緩衝區來存儲經驗。這是一個為動態環境構建的高性能系統。 7. 各自的優勢:它們的甜蜜點 代理:在具有乾淨 API 的工作流程中占主導地位(例如,自動化業務流程)、對文檔進行推理(例如,總結報告)或代碼生成。它是結構化、高級任務的首選。 操作員:在混亂、沒有 API 的環境中表現出色,如導航笨重的用戶界面、控制機器人或處理遊戲般的任務。如果涉及與不可預測系統的實時互動,VLA 是王者。 8. 心智模型:規劃者 + 執行者 將 LLM 代理視為規劃者:它將複雜任務分解為清晰、邏輯的目標。 VLA 操作員是執行者,通過直接與像素或物理系統互動來執行這些目標。一個檢查者(另一個系統或代理)監控結果以確保成功。 $CODEC
8.04K