Subiecte populare
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Vă prezentăm ':exacto', endpoint-uri de apelare a instrumentelor de precizie
OpenRouter oferă acum un subset de furnizori pe modele open source de top, cu o precizie măsurabil mai mare a apelurilor instrumentelor, oferind o utilizare mai fiabilă a instrumentelor.

Citiți toate detaliile în postarea noastră de pe blog: sau continuați să citiți subiectul pentru rezumat.

De ce contează acest lucru:
Chiar și atunci când furnizorii găzduiesc *aceleași ponderi de model*, calitatea inferenței din lumea reală poate diferi.
Rularea a miliarde de solicitări pe lună oferă OpenRouter un punct de vedere unic pentru a detecta aceste variații și a scoate automat la iveală cei mai precisi furnizori.
Cum măsurăm calitatea utilizării uneltelor:
• Valabilitatea JSON
• Numele sculei și schema se potrivesc
• Tendința de a folosi unelte (tendința de a apela unelte)
• Preferințe de ignorare/listă neagră a utilizatorului
• Benchmark-uri externe (τ²-Bench, LiveMCPBench prin @GroqInc OpenBench)

Aceste date arată că acuratețea apelurilor instrumentelor variază mult mai mult de la un furnizor la altul decât sugerează benchmark-urile convenționale, chiar și pentru același model de greutate deschisă.
Așa că am construit endpoint-uri care direcționează *doar* către cele mai fiabile.

Modelele de lansare includ:
"Moonshotai/Kimi-K2-0905: Exacto"
'deepseek/deepseek-v3.1-terminus:exacto'
"Z-AI/GLM-4.6: Exacto"
'OpenAI/GPT-OSS-120B:Exacto'
'qwen/qwen3-coder:exacto'
Vedeți-le pe toate aici .

Modele Exacto + combinații de furnizori:
Kimi K2: @GroqInc și @Kimi_Moonshot
GLM-4.6: @novita_labs, @DeepInfra și @Zai_org
gpt-oss-120b: Groq, DeepInfra, Novita
Codificator Qwen3: @basetenco, @cerebras și @GoogleAI
Terminus DeepSeek: @AtlasCloud_AI, DeepInfra și Novita
Folosiți-le ca orice alt model, doar adăugați ':exacto':
'''Bash
buclă\
-H "Autorizare: Purtător $OPENROUTER_API_KEY" \
-d '{"model": "moonshotai/kimi-k2-0905:exacto", "messages":[{"role":"user","content":"Care este capitala Franței?"}]}'
```
Benchmark-urile și evaluările interne arată o creștere semnificativă a ratelor de succes ale apelurilor de scule la toate modelele ":exacto", mai puține JSON-uri nevalide, mai puține nepotriviri de schemă și o fiabilitate mai mare în lumea reală. Mulțumim OpenBench de la @GroqInc pentru hamul eval și noul LiveMCPBench adăugat.

Varianta ":exacto" se concentrează exclusiv pe precizia apelării instrumentelor, nu pe un clasament general al calității furnizorilor.
Vom continua să extindem aceste puncte finale și să partajăm mai multe date agregate mai târziu în acest an.
139,23K
Limită superioară
Clasament
Favorite

