代理鏈 用一個模型訓練多代理系統的能力是個有趣的想法。 推理成本減少了84.6%! 蒸餾和代理強化學習可不是開玩笑的! 以下是我的筆記:
73.25K