Verrataan OpenAI gpt-oss:ää ja Qwen-3:a matematiikan ja päättelyn suhteen:
Ennen kuin sukellamme sisään, tässä on nopea esittely siitä, mitä olemme rakentamassa! Tekninen pino: - @LiteLLM orkestrointiin - @Cometml Opik rakentaa eval-putken (avoimen lähdekoodin) - @OpenRouterAI käyttää malleja Opit myös G-Evalista ja mukautettujen eval-mittareiden rakentamisesta. Mennään! 🚀
Tässä on työnkulku: - Käyttäjä lähettää kyselyn - Molemmat mallit tuottavat päättelymerkkejä lopullisen vastauksen kanssa - Kysely-, vastaus- ja päättelylogiikka lähetetään arvioitavaksi - Yksityiskohtainen arviointi suoritetaan Opikin G-Evalin avulla neljällä mittarilla. Toteutetaan tämä!
1️⃣ Lataa API-avaimet Tässä demossa käytämme OpenRouteria päästäksesi gpt-oss- ja Qwen3-malleihin. OpenAI-avain vaaditaan tuomarille LLM G-Evalissa. Tallenna OpenRouter- ja OpenAI API -avaimet .env-tiedostoon ladataksesi ympäristöön. Tarkista tämä 👇
2️⃣ Loogisen päättelyn mittari Luomme nyt arviointimittarit tehtäväämme Opikin G-Evalin avulla. Tämä mittari arvioi loogisten vaiheiden ja johtopäätösten johdonmukaisuutta ja pätevyyttä. Tsekkaa tämä 👇
3️⃣ Tosiasiallisen tarkkuuden mittari Tämä mittari arvioi tosiasioihin perustuvien väitteiden ja tietojen paikkansapitävyyttä. Tsekkaa tämä 👇
4️⃣ Johdonmukaisuuden mittari Tämä mittari arvioi vastauksen selkeyttä ja organisointia. Tsekkaa tämä 👇
5️⃣ Analyysin syvyysmittari Tämä mittari arvioi päättelyn syvyyttä ja oivaltavuutta. Tsekkaa tämä 👇
6️⃣ Luo mallivastaus Nyt olemme kaikki valmiita tuottamaan vastauksia molemmista malleista. Syötämme kyselyn kehoteruutuun ja suoratoistamme vastauksia molemmista malleista samanaikaisesti. Tarkista tämä 👇
7️⃣ Arvioi luotua päättelyä Lopuksi käytämme GPT-4o:ta tuomarina LLM. Se arvioi molemmat päättelyvastaukset, luo edellä mainitut mittarit ja antaa tietoja kustakin mittarista. Tsekkaa tämä 👇
Aika testata.. (1/2) Kysely 1: Rakenna MCP-palvelin, joka tarkkailee GitHub-säilöä uusien ongelmien varalta ja lähettää ne Telegram-ryhmään. Tässä ovat yksityiskohtaiset tulokset:
Aika testata.. (2/2) Kysely 2: Rakenna MCP-palvelin, joka luo uuden käsitesivun, kun joku pudottaa tiedoston tiettyyn Google Drive -kansioon. Tässä ovat yksityiskohtaiset tulokset:
Molemmat mallit ovat erittäin tehokkaita: Qwen 3 tarjoaa monisanaisia ja yksityiskohtaisia perusteluja, kun taas GPT-oss on terävä ja tarkka. Voit vapaasti testata sitä haastavammissa kyselyissä. Tässä on kaikki koodi:
Jos se oli mielestäsi oivaltava, jaa se uudelleen verkostosi kanssa. Etsi minut → @akshay_pachaar✔️ Lisää näkemyksiä ja opetusohjelmia LLM:istä, tekoälyagenteista ja koneoppimisesta!
Akshay 🚀
Akshay 🚀6.8.2025
Verrataan OpenAI gpt-oss:ää ja Qwen-3:a matematiikan ja päättelyn suhteen:
Aika testata.. (1/2) Kysely 1: Etana kiipeää 10 jalan seinää pitkin. Joka päivä se kiipeää 3 jalkaa, mutta joka yö se liukuu 2 jalkaa taaksepäin. Minä päivänä se saavuttaa huipun? Tässä ovat yksityiskohtaiset tulokset:
Aika testata.. (2/2) Kysely 2: Karannut vaunu on matkalla kohti 5 ihmistä. Voit vetää vipua ohjataksesi sen sivuraiteille, jossa se tappaa sen sijaan 1 henkilön. Mitä sinun pitäisi tehdä ja miksi? Tässä ovat yksityiskohtaiset tulokset:
Molemmat mallit ovat erittäin tehokkaita: Qwen 3 tarjoaa monisanaisia ja yksityiskohtaisia perusteluja, kun taas GPT-oss on terävä ja tarkka. Voit vapaasti testata sitä haastavammissa kyselyissä. Tässä on kaikki koodi:
Jos se oli mielestäsi oivaltava, jaa se uudelleen verkostosi kanssa. Etsi minut → @akshay_pachaar✔️ Lisää näkemyksiä ja opetusohjelmia LLM:istä, tekoälyagenteista ja koneoppimisesta!
Akshay 🚀
Akshay 🚀6.8.2025
Verrataan OpenAI gpt-oss:ää ja Qwen-3:a matematiikan ja päättelyn suhteen:
300,94K