DApp Store | Centrum Web3 pro události a hry

Populární témata

Porovnejme OpenAI gpt-oss a Qwen-3 na matematice a uvažování:

Než se do toho ponoříme, zde je krátká ukázka toho, co vytváříme! Technologický zásobník: - @LiteLLM pro orchestraci - @Cometml's Opik pro vytvoření eval pipeline (open-source) - @OpenRouterAI přístup k modelům Dozvíte se také o G-Eval a vytváření vlastních metrik eval. Jdeme! 🚀

Zde je pracovní postup: - Uživatel odešle dotaz - Oba modely generují tokeny uvažování spolu s konečnou odpovědí - Logika dotazu, odpovědi a uvažování jsou odeslány k vyhodnocení - Podrobné vyhodnocení se provádí pomocí nástroje Opik's G-Eval ve čtyřech metrikách. Pojďme to implementovat!

1️⃣ Načíst klíče API V této ukázce použijeme OpenRouter pro přístup k modelům gpt-oss a Qwen3. Klíč OpenAI je vyžadován pro posouzení LLM v G-Eval. Uložte klíče OpenRouter a OpenAI API do souboru .env a načtěte je do prostředí. Zkontrolujte toto 👇

2️⃣ Metrika logického uvažování Nyní si vytvoříme vyhodnocovací metriky pro náš úkol pomocí Opik's G-Eval. Tato metrika hodnotí provázanost a platnost logických kroků a závěrů. Podívejte se na 👇 to

3️⃣ Metrika faktické přesnosti Tato metrika hodnotí přesnost faktických tvrzení a informací. Podívejte se na 👇 to

4️⃣ Metrika soudržnosti Tato metrika hodnotí srozumitelnost a organizaci odpovědi. Podívejte se na 👇 to

5️⃣ Metrika hloubky analýzy Tato metrika hodnotí hloubku a pronikavost uvažování. Podívejte se na 👇 to

6️⃣ Generování odezvy modelu Nyní jsme všichni připraveni generovat odpovědi z obou modelů. Dotaz zadáme do pole s výzvou a streamujeme odpovědi z obou modelů současně. Zkontrolujte toto 👇

7️⃣ Vyhodnoťte vygenerované uvažování Nakonec používáme GPT-4o jako posuzovatele LLM. Vyhodnocuje obě odůvodněné odpovědi, generuje výše uvedené metriky a poskytuje podrobnosti pro každou metriku. Podívejte se na 👇 to

Je čas vyzkoušet... (1/2) Dotaz 1: Vytvořte server MCP, který sleduje repozitář GitHub pro nové problémy a odesílá je skupině Telegram. Zde jsou podrobné výsledky:

Je čas vyzkoušet... (2/2) Dotaz 2: Vytvořte server MCP, který vytvoří novou stránku Notion, když někdo umístí soubor do konkrétní složky na Disku Google. Zde jsou podrobné výsledky:

Oba modely jsou vysoce schopné: Qwen 3 nabízí upovídané a podrobné uvažování, zatímco GPT-oss je ostrý a přesný. Neváhejte a otestujte jej na náročnějších dotazech. Zde je veškerý kód:

Pokud vám to připadalo užitečné, sdílejte to znovu se svou sítí. Najdi mě → @akshay_pachaar✔️ Další poznatky a návody na LLM, AI agenty a strojové učení!

Je čas vyzkoušet... (1/2) Otázka 1: Šnek leze po 10 stop vysoké stěně. Každý den vystoupá 3 stopy, ale každou noc se posune o 2 stopy zpět. Který den dosáhne vrcholu? Zde jsou podrobné výsledky:

Je čas vyzkoušet... (2/2) Dotaz 2: Splašený vozík míří k 5 lidem. Můžete zatáhnout za páku a odklonit jej na vedlejší kolej, kde místo toho zabije 1 člověka. Co byste měli dělat a proč? Zde jsou podrobné výsledky:

Pokud vám to připadalo užitečné, sdílejte to znovu se svou sítí. Najdi mě → @akshay_pachaar✔️ Další poznatky a návody na LLM, AI agenty a strojové učení!

300,95K

Top

Hodnocení

Oblíbené