Представляем `:exacto`, инструменты для точного вызова конечных точек OpenRouter теперь предлагает отобранный набор провайдеров на основе открытых моделей с измеримо более высокой точностью вызова инструментов, обеспечивая более надежное использование инструментов.
Читать полные детали в нашем блоге: или продолжайте читать тему для резюме.
Почему это важно: Даже когда провайдеры используют *одинаковые веса модели*, качество вывода в реальном времени может различаться. Обработка миллиардов запросов в месяц дает OpenRouter уникальную возможность обнаруживать эти различия и автоматически выявлять самых точных провайдеров.
Как мы измеряем качество использования инструментов: • Валидность JSON • Соответствие имени инструмента и схемы • Склонность к использованию инструмента (тенденция вызывать инструменты) • Предпочтения пользователя по игнорированию/черному списку • Внешние эталоны (τ²-Bench, LiveMCPBench через @GroqInc OpenBench)
Эти данные показывают, что точность вызова инструментов значительно варьируется между провайдерами, чем предполагают традиционные эталоны, даже для одной и той же модели с открытым весом. Поэтому мы создали конечные точки, которые маршрутизируют *только* к самым надежным.
Модели запуска включают: `moonshotai/kimi-k2-0905:exacto` `deepseek/deepseek-v3.1-terminus:exacto` `z-ai/glm-4.6:exacto` `openai/gpt-oss-120b:exacto` `qwen/qwen3-coder:exacto` Смотрите их все здесь .
Комбинации моделей Exacto + провайдеров: Kimi K2: @GroqInc и @Kimi_Moonshot GLM-4.6: @novita_labs, @DeepInfra и @Zai_org gpt-oss-120b: Groq, DeepInfra, Novita Qwen3 Coder: @basetenco, @cerebras и @GoogleAI DeepSeek Terminus: @AtlasCloud_AI, DeepInfra и Novita
Используйте их как любую другую модель, просто добавьте `:exacto`: ```bash curl \ -H "Authorization: Bearer $OPENROUTER_API_KEY" \ -d '{"model": "moonshotai/kimi-k2-0905:exacto", "messages":[{"role":"user","content":"Какова столица Франции?"}]}' ```
Бенчмарки и внутренние оценки показывают значительное увеличение успеха вызовов инструментов по всем моделям `:exacto`, меньше недействительных JSON, меньше несоответствий схем и более высокая надежность в реальных условиях. Спасибо @GroqInc за OpenBench для оценочного каркаса и за недавно добавленный LiveMCPBench.
Вариант `:exacto` сосредоточен исключительно на точности вызова инструментов, а не на общем ранжировании качества поставщиков. Мы продолжим расширять эти конечные точки и поделимся более агрегированными данными позже в этом году.
139,22K