Tienda de dapps | Hub de Web3 para eventos y juegos

Temas en tendencia

Presentamos ':exacto', Puntos finales de llamada a herramientas de precisión OpenRouter ahora ofrece un subconjunto seleccionado de proveedores en los mejores modelos de código abierto con una precisión de llamada de herramientas considerablemente mayor que ofrece un uso más confiable de las herramientas.

Lea los detalles completos en nuestra publicación de blog: o continúe leyendo el hilo para ver el resumen.

Por qué esto es importante: Incluso cuando los proveedores alojan *los mismos pesos del modelo*, la calidad de la inferencia en el mundo real puede diferir. La ejecución de miles de millones de solicitudes por mes le da a OpenRouter un punto de vista único para detectar estas variaciones y mostrar los proveedores más precisos automáticamente.

Cómo medimos la calidad del uso de herramientas: • Validez JSON • Coincidencias de nombre y esquema de la herramienta • Propensión al uso de herramientas (tendencia a llamar a las herramientas) • Preferencias de ignorar/lista negra del usuario • Benchmarks externos (τ²-Bench, LiveMCPBench vía @GroqInc OpenBench)

Estos datos revelan que la precisión de las llamadas de herramientas varía mucho más entre los proveedores de lo que sugieren los puntos de referencia convencionales, incluso para el mismo modelo de peso abierto. Así que construimos puntos finales que enrutan *solo* a los más confiables.

Los modelos de lanzamiento incluyen: 'moonshotai/kimi-k2-0905:exacto' 'deepseek/deepseek-v3.1-terminus:exacto' 'z-ai/glm-4.6:exacto' 'openai/gpt-oss-120b:exacto' 'qwen/qwen3-coder:exacto' Véalos todos aquí .

Modelos exactos + combos de proveedores: Kimi K2: @GroqInc y @Kimi_Moonshot GLM-4.6: @novita_labs, @DeepInfra y @Zai_org gpt-oss-120b: Groq, DeepInfra, Novita Codificador de Qwen3: @basetenco, @cerebras y @GoogleAI Terminal de DeepSeek: @AtlasCloud_AI, DeepInfra y Novita

Úselos como cualquier otro modelo, simplemente agregue ':exacto': '''golpe rizo\ -H "Autorización: Portador $OPENROUTER_API_KEY" \ -d '{"model": "moonshotai/kimi-k2-0905:exacto", "messages":[{"role":"user","content":"¿Cuál es la capital de Francia?"}]}' ```

Los puntos de referencia y las evaluaciones internas muestran un aumento sustancial en las tasas de éxito de las llamadas de herramientas en todos los modelos ':exacto', menos JSON no válidos, menos desajustes de esquema y una mayor confiabilidad en el mundo real. Un saludo a OpenBench de @GroqInc por el arnés de evaluación y el recién agregado LiveMCPBench.

La variante ':exacto' se centra puramente en la precisión de la llamada de herramientas, no en una clasificación general de la calidad del proveedor. Continuaremos expandiendo estos puntos finales y compartiremos más datos agregados a finales de este año.

139.2K

Populares

Ranking

Favoritas