Tendencias del momento
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Hay mucha confusión en línea sobre lo que realmente es un entorno RL. 
Es literalmente solo un punto de referencia. 
- Un entorno
- Un estado inicial
- Un verificador que comprueba si un estado final es correcto o aceptable
El entorno es una pequeña caja de arena que le da a la LLM la oportunidad de interactuar realmente: tomar acciones, ver resultados y afectar el mundo en el que se encuentra. En el caso de TerminalBench, es solo un contenedor Docker que emula un terminal de desarrollador real, completo con archivos, dependencias y herramientas del sistema que el modelo puede usar.
El estado inicial define lo que el modelo ve cuando comienza la tarea: las entradas, el contexto y las condiciones iniciales. En un punto de referencia de codificación, este podría ser el estado de un repositorio Git cuando el usuario comenzó a trabajar: los archivos, el informe de errores, las pruebas fallidas y el aviso inicial del usuario que le dice al modelo lo que necesita hacerse. Es la "configuración del problema", congelada en el tiempo, para que cada modelo comience desde la misma posición y el resultado pueda compararse de manera justa.
Finalmente, el verificador es lo que hace que todo sea medible. Es la pieza que comprueba si el modelo realmente resolvió la tarea: el juez automatizado que convierte salidas desordenadas en una puntuación simple o señal de aprobado/reprobado. 
Por eso escuchas a la gente en los laboratorios decir "entrenamos en verificadores". Están hablando de tener una forma automatizada de puntuar el comportamiento del modelo. Esto se convierte entonces en la función de recompensa para RL, o la señal de aprobado/reprobado para los puntos de referencia.

Parte superior
Clasificación
Favoritos

