Popularne tematy
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Porównajmy OpenAI gpt-oss i Qwen-3 w matematyce i rozumowaniu:
Zanim przejdziemy do konkretów, oto krótka demonstracja tego, co tworzymy!
Stos technologiczny:
- @LiteLLM do orkiestracji
- @Cometml's Opik do budowy potoku ewaluacyjnego (open-source)
- @OpenRouterAI uzyskać dostęp do modeli
Dowiesz się również o G-Eval i tworzeniu niestandardowych wskaźników ewaluacyjnych.
Chodźmy! 🚀
Oto workflow:
- Użytkownik składa zapytanie
- Oba modele generują tokeny rozumowania wraz z ostateczną odpowiedzią
- Zapytanie, odpowiedź i logika rozumowania są wysyłane do oceny
- Szczegółowa ocena jest przeprowadzana przy użyciu G-Eval Opika w czterech metrykach.
Zrealizujmy to!
1️⃣ Załaduj klucze API
W tej demonstracji użyjemy OpenRouter do uzyskania dostępu do modeli gpt-oss i Qwen3.
Klucz OpenAI jest wymagany dla sędziego LLM w G-Eval.
Przechowuj klucze API OpenRouter i OpenAI w pliku .env, aby załadować je do środowiska.
Sprawdź to 👇

2️⃣ Metryka rozumowania logicznego
Teraz stworzymy metryki oceny dla naszego zadania, korzystając z G-Eval Opika.
Ta metryka ocenia spójność i ważność kroków logicznych oraz wniosków.
Sprawdź to 👇

3️⃣ Metryka dokładności faktów
Ta metryka ocenia dokładność twierdzeń i informacji faktograficznych.
Sprawdź to 👇

4️⃣ Metryka spójności
Ta metryka ocenia jasność i organizację odpowiedzi.
Sprawdź to 👇

5️⃣ Metrika Głębokości Analizy
Ta metryka ocenia głębokość i wnikliwość rozumowania.
Sprawdź to 👇

6️⃣ Generuj odpowiedź modelu
Teraz jesteśmy gotowi do generowania odpowiedzi z obu modeli.
Wprowadzamy zapytanie do pola prompt i jednocześnie przesyłamy odpowiedzi z obu modeli.
Sprawdź to 👇

7️⃣ Oceń wygenerowane rozumowanie
Na koniec używamy GPT-4o jako sędzię LLM.
Ocenia obie odpowiedzi rozumujące, generuje wspomniane powyżej metryki i dostarcza szczegóły dla każdej metryki.
Sprawdź to 👇

Czas na testowanie.. (1/2)
Zapytanie 1: Zbuduj serwer MCP, który monitoruje repozytorium GitHub w poszukiwaniu nowych problemów i wysyła je do grupy na Telegramie.
Oto szczegółowe wyniki:

Czas na testowanie.. (2/2)
Zapytanie 2: Zbuduj serwer MCP, który tworzy nową stronę w Notion, gdy ktoś wrzuci plik do określonego folderu Google Drive.
Oto szczegółowe wyniki:

Oba modele są bardzo zdolne: Qwen 3 oferuje szczegółowe i rozbudowane rozumowanie, podczas gdy GPT-oss jest zwięzły i precyzyjny.
Śmiało przetestuj go na bardziej wymagających zapytaniach.
Oto cały kod:
Jeśli uznałeś to za interesujące, podziel się tym ze swoją siecią.
Znajdź mnie → @akshay_pachaar✔️
Po więcej informacji i samouczków na temat LLM, agentów AI i uczenia maszynowego!

6 sie 2025
Porównajmy OpenAI gpt-oss i Qwen-3 w matematyce i rozumowaniu:
Czas na test.. (1/2)
Zapytanie 1: Ślimak wspina się na 10-stopową ścianę. Każdego dnia wspina się na 3 stopy, ale każdej nocy zjeżdża z powrotem o 2 stopy. W którym dniu dotrze na szczyt?
Oto szczegółowe wyniki:

Czas na test.. (2/2)
Pytanie 2: Uciekająca kolejka zmierza w kierunku 5 osób. Możesz pociągnąć dźwignię, aby skierować ją na boczny tor, gdzie zabije 1 osobę zamiast 5. Co powinieneś zrobić i dlaczego?
Oto szczegółowe wyniki:

Oba modele są bardzo zdolne: Qwen 3 oferuje szczegółowe i rozbudowane rozumowanie, podczas gdy GPT-oss jest zwięzły i precyzyjny.
Śmiało przetestuj go na bardziej wymagających zapytaniach.
Oto cały kod:
Jeśli uznałeś to za interesujące, podziel się tym ze swoją siecią.
Znajdź mnie → @akshay_pachaar✔️
Po więcej informacji i samouczków na temat LLM, agentów AI i uczenia maszynowego!

6 sie 2025
Porównajmy OpenAI gpt-oss i Qwen-3 w matematyce i rozumowaniu:
300,89K
Najlepsze
Ranking
Ulubione