¡Nuevo artículo de @Scale_AI! ¿El culpable detrás del hacking de recompensas? Lo rastreamos hasta la especificación incorrecta en la cola de alta recompensa. Nuestra solución: recompensas basadas en rúbricas para distinguir las respuestas "excelentes" de las "geniales." El resultado: ¡Menos hacking, más robustez post-entrenamiento!