代理链 用一个模型训练多代理系统的能力是个有趣的想法。 推理成本减少了84.6%! 蒸馏和代理强化学习可不是开玩笑的! 以下是我的笔记:
73.24K