看起来未来几年人工智能的发展将会是大量的强化学习与大型语言模型作为评判者的奖励函数。我们生活在一个奇怪的时代。 我可以在哪里了解更多关于这一范式的信息?最相关的博客和论文有哪些?
135.76K