Temas en tendencia
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Mi grupo y colaboradores han desarrollado muchos puntos de referencia populares a lo largo de los años, por ejemplo, MMLU, MATH, APPS--- realmente entusiasmados con nuestro último punto de referencia OMEGA Ω:
🔍¿Pueden los LLM realmente pensar fuera de la caja en matemáticas?
Un nuevo punto de referencia que sondea 3 ejes de generalización:
1️⃣ Exploratorio
2️⃣ Compositivo
3️⃣ Transformador
mostrando las limitaciones de la IA de frontera actual y el entrenamiento de RL en estas dimensiones de generalización.
Inspirado en la tipología de creatividad de Boden, OMEGA avanza más allá de los puntos de referencia anteriores con un conjunto de datos generado mediante programación que combina un control preciso con una rica diversidad. Abarcando una amplia gama de dominios matemáticos, está diseñado explícitamente para evaluar distintos ejes de generalización y razonamiento creativo.
Al aislar y cuantificar los modos de falla de grano fino, OMEGA proporciona una base para avanzar en los LLM hacia una creatividad matemática genuina, más allá de la competencia mecánica.
¡Muchas gracias a mi postdoctorado @YiyouSun @UCBerkeley liderar el proyecto y a los increíbles colaboradores @nouhadziri @HannaHajishirzi @allen_ai y otros coautores!
Populares
Ranking
Favoritas