Kun RETRO julkaistiin, ajattelin, että haku on iso juttu LLM:ille, jotta parametrien määrä vähenee ja mallien tietosyvyys kasvaa. Minua yllätti, että yritykset välttivät tuon ajatuksen.
Whale tuo Retrievelin pöytään:
> Erityisesti muistimoduulin odotetaan auttavan tiedon haun (esim. MMLU +3.4; CMMLU +4.0), havaitsemme vielä suurempia parannuksia yleisessä päättelyssä (esim. BBH +5.0; ARC-Challenge +3.7) sekä koodi/matematiikan domainit (HumanEval +3.0; MATEMATIIKKA +2.4). Mekaaniset analyysit paljastavat, että Engram vapauttaa selkärangan varhaiset kerrokset staattiselta rekonstruktiolta, syventäen verkostoa tehokkaasti monimutkaista päättelyä varten.
Artikkeli on mielenkiintoinen, mutta minulla oli hieman vaikeuksia kokonaispalkintokaavan kanssa. Kaikille kaltaisilleni, tässä on kommentoitu versio, jossa kaikki muuttujat ovat samalla näytöllä, ilman tarvetta vaihtaa sivuja edestakaisin (miksi ihmiset eivät tee näin? Ehkä ilman värejä, mutta pelkkä legenda):
Deepseek Math v2 on mielestäni ensimmäinen avoimen lähdekoodin malli, joka on saavuttanut kullan arvon? ja saamme teknisen raportin, mikä uskomaton julkaisu