Sklep DApp | Centrum Web3 dla wydarzeń i gier

Popularne tematy

Porównajmy OpenAI gpt-oss i Qwen-3 w matematyce i rozumowaniu:

Zanim przejdziemy do konkretów, oto krótka demonstracja tego, co tworzymy! Stos technologiczny: - @LiteLLM do orkiestracji - @Cometml's Opik do budowy potoku ewaluacyjnego (open-source) - @OpenRouterAI uzyskać dostęp do modeli Dowiesz się również o G-Eval i tworzeniu niestandardowych wskaźników ewaluacyjnych. Chodźmy! 🚀

Oto workflow: - Użytkownik składa zapytanie - Oba modele generują tokeny rozumowania wraz z ostateczną odpowiedzią - Zapytanie, odpowiedź i logika rozumowania są wysyłane do oceny - Szczegółowa ocena jest przeprowadzana przy użyciu G-Eval Opika w czterech metrykach. Zrealizujmy to!

1️⃣ Załaduj klucze API W tej demonstracji użyjemy OpenRouter do uzyskania dostępu do modeli gpt-oss i Qwen3. Klucz OpenAI jest wymagany dla sędziego LLM w G-Eval. Przechowuj klucze API OpenRouter i OpenAI w pliku .env, aby załadować je do środowiska. Sprawdź to 👇

2️⃣ Metryka rozumowania logicznego Teraz stworzymy metryki oceny dla naszego zadania, korzystając z G-Eval Opika. Ta metryka ocenia spójność i ważność kroków logicznych oraz wniosków. Sprawdź to 👇

3️⃣ Metryka dokładności faktów Ta metryka ocenia dokładność twierdzeń i informacji faktograficznych. Sprawdź to 👇

4️⃣ Metryka spójności Ta metryka ocenia jasność i organizację odpowiedzi. Sprawdź to 👇

5️⃣ Metrika Głębokości Analizy Ta metryka ocenia głębokość i wnikliwość rozumowania. Sprawdź to 👇

6️⃣ Generuj odpowiedź modelu Teraz jesteśmy gotowi do generowania odpowiedzi z obu modeli. Wprowadzamy zapytanie do pola prompt i jednocześnie przesyłamy odpowiedzi z obu modeli. Sprawdź to 👇

7️⃣ Oceń wygenerowane rozumowanie Na koniec używamy GPT-4o jako sędzię LLM. Ocenia obie odpowiedzi rozumujące, generuje wspomniane powyżej metryki i dostarcza szczegóły dla każdej metryki. Sprawdź to 👇

Czas na testowanie.. (1/2) Zapytanie 1: Zbuduj serwer MCP, który monitoruje repozytorium GitHub w poszukiwaniu nowych problemów i wysyła je do grupy na Telegramie. Oto szczegółowe wyniki:

Czas na testowanie.. (2/2) Zapytanie 2: Zbuduj serwer MCP, który tworzy nową stronę w Notion, gdy ktoś wrzuci plik do określonego folderu Google Drive. Oto szczegółowe wyniki:

Oba modele są bardzo zdolne: Qwen 3 oferuje szczegółowe i rozbudowane rozumowanie, podczas gdy GPT-oss jest zwięzły i precyzyjny. Śmiało przetestuj go na bardziej wymagających zapytaniach. Oto cały kod:

Jeśli uznałeś to za interesujące, podziel się tym ze swoją siecią. Znajdź mnie → @akshay_pachaar✔️ Po więcej informacji i samouczków na temat LLM, agentów AI i uczenia maszynowego!

Czas na test.. (1/2) Zapytanie 1: Ślimak wspina się na 10-stopową ścianę. Każdego dnia wspina się na 3 stopy, ale każdej nocy zjeżdża z powrotem o 2 stopy. W którym dniu dotrze na szczyt? Oto szczegółowe wyniki:

Czas na test.. (2/2) Pytanie 2: Uciekająca kolejka zmierza w kierunku 5 osób. Możesz pociągnąć dźwignię, aby skierować ją na boczny tor, gdzie zabije 1 osobę zamiast 5. Co powinieneś zrobić i dlaczego? Oto szczegółowe wyniki:

Jeśli uznałeś to za interesujące, podziel się tym ze swoją siecią. Znajdź mnie → @akshay_pachaar✔️ Po więcej informacji i samouczków na temat LLM, agentów AI i uczenia maszynowego!

301,02K

Najlepsze

Ranking

Ulubione