Trendaavat aiheet
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Verrataan OpenAI gpt-oss:ää ja Qwen-3:a matematiikan ja päättelyn suhteen:
Ennen kuin sukellamme sisään, tässä on nopea esittely siitä, mitä olemme rakentamassa!
Tekninen pino:
- @LiteLLM orkestrointiin
- @Cometml Opik rakentaa eval-putken (avoimen lähdekoodin)
- @OpenRouterAI käyttää malleja
Opit myös G-Evalista ja mukautettujen eval-mittareiden rakentamisesta.
Mennään! 🚀
Tässä on työnkulku:
- Käyttäjä lähettää kyselyn
- Molemmat mallit tuottavat päättelymerkkejä lopullisen vastauksen kanssa
- Kysely-, vastaus- ja päättelylogiikka lähetetään arvioitavaksi
- Yksityiskohtainen arviointi suoritetaan Opikin G-Evalin avulla neljällä mittarilla.
Toteutetaan tämä!
1️⃣ Lataa API-avaimet
Tässä demossa käytämme OpenRouteria päästäksesi gpt-oss- ja Qwen3-malleihin.
OpenAI-avain vaaditaan tuomarille LLM G-Evalissa.
Tallenna OpenRouter- ja OpenAI API -avaimet .env-tiedostoon ladataksesi ympäristöön.
Tarkista tämä 👇

2️⃣ Loogisen päättelyn mittari
Luomme nyt arviointimittarit tehtäväämme Opikin G-Evalin avulla.
Tämä mittari arvioi loogisten vaiheiden ja johtopäätösten johdonmukaisuutta ja pätevyyttä.
Tsekkaa tämä 👇

3️⃣ Tosiasiallisen tarkkuuden mittari
Tämä mittari arvioi tosiasioihin perustuvien väitteiden ja tietojen paikkansapitävyyttä.
Tsekkaa tämä 👇

4️⃣ Johdonmukaisuuden mittari
Tämä mittari arvioi vastauksen selkeyttä ja organisointia.
Tsekkaa tämä 👇

5️⃣ Analyysin syvyysmittari
Tämä mittari arvioi päättelyn syvyyttä ja oivaltavuutta.
Tsekkaa tämä 👇

6️⃣ Luo mallivastaus
Nyt olemme kaikki valmiita tuottamaan vastauksia molemmista malleista.
Syötämme kyselyn kehoteruutuun ja suoratoistamme vastauksia molemmista malleista samanaikaisesti.
Tarkista tämä 👇

7️⃣ Arvioi luotua päättelyä
Lopuksi käytämme GPT-4o:ta tuomarina LLM.
Se arvioi molemmat päättelyvastaukset, luo edellä mainitut mittarit ja antaa tietoja kustakin mittarista.
Tsekkaa tämä 👇

Aika testata.. (1/2)
Kysely 1: Rakenna MCP-palvelin, joka tarkkailee GitHub-säilöä uusien ongelmien varalta ja lähettää ne Telegram-ryhmään.
Tässä ovat yksityiskohtaiset tulokset:

Aika testata.. (2/2)
Kysely 2: Rakenna MCP-palvelin, joka luo uuden käsitesivun, kun joku pudottaa tiedoston tiettyyn Google Drive -kansioon.
Tässä ovat yksityiskohtaiset tulokset:

Molemmat mallit ovat erittäin tehokkaita: Qwen 3 tarjoaa monisanaisia ja yksityiskohtaisia perusteluja, kun taas GPT-oss on terävä ja tarkka.
Voit vapaasti testata sitä haastavammissa kyselyissä.
Tässä on kaikki koodi:
Jos se oli mielestäsi oivaltava, jaa se uudelleen verkostosi kanssa.
Etsi minut → @akshay_pachaar✔️
Lisää näkemyksiä ja opetusohjelmia LLM:istä, tekoälyagenteista ja koneoppimisesta!

6.8.2025
Verrataan OpenAI gpt-oss:ää ja Qwen-3:a matematiikan ja päättelyn suhteen:
Aika testata.. (1/2)
Kysely 1: Etana kiipeää 10 jalan seinää pitkin. Joka päivä se kiipeää 3 jalkaa, mutta joka yö se liukuu 2 jalkaa taaksepäin. Minä päivänä se saavuttaa huipun?
Tässä ovat yksityiskohtaiset tulokset:

Aika testata.. (2/2)
Kysely 2: Karannut vaunu on matkalla kohti 5 ihmistä. Voit vetää vipua ohjataksesi sen sivuraiteille, jossa se tappaa sen sijaan 1 henkilön. Mitä sinun pitäisi tehdä ja miksi?
Tässä ovat yksityiskohtaiset tulokset:

Molemmat mallit ovat erittäin tehokkaita: Qwen 3 tarjoaa monisanaisia ja yksityiskohtaisia perusteluja, kun taas GPT-oss on terävä ja tarkka.
Voit vapaasti testata sitä haastavammissa kyselyissä.
Tässä on kaikki koodi:
Jos se oli mielestäsi oivaltava, jaa se uudelleen verkostosi kanssa.
Etsi minut → @akshay_pachaar✔️
Lisää näkemyksiä ja opetusohjelmia LLM:istä, tekoälyagenteista ja koneoppimisesta!

6.8.2025
Verrataan OpenAI gpt-oss:ää ja Qwen-3:a matematiikan ja päättelyn suhteen:
300,94K
Johtavat
Rankkaus
Suosikit