¡Nuevo papel @Scale_AI! ¿El culpable de la piratería de recompensas? Lo rastreamos a una especificación errónea en la cola de alta recompensa. Nuestra solución: recompensas basadas en rúbricas para diferenciar las respuestas "excelentes" de las "excelentes". El resultado: ¡menos piratería, más fuerte después del entrenamiento!