parece que los próximos años de desarrollo de IA estarán llenos de RL con funciones de recompensa LLM-como-juez. tiempos extraños en los que vivimos ¿dónde puedo aprender más sobre este paradigma? ¿cuáles son los blogs y artículos más relevantes?
135,77K