TRM-paperi tuntuu merkittävältä tekoälyn läpimurrolta. Se tuhoaa pareto-rajan ARC AGI 1:n ja 2:n vertailuarvoissa (ja Sudokun ja Mazen ratkaisemisessa) < 0,01 dollarin kustannus tehtävää kohden ja maksaa < 500 dollaria 7M-mallin kouluttamisesta 2 H100:lla 2 päivän ajan. [Koulutuksen ja testin yksityiskohdat] ARC:tä varten se harjoitteli 160 ConceptARC:n esimerkkiä. Testiaikana se käyttää yleisintä vastausta 1000 lisäystä testiaikana ja upottaa syötteeseen tehtävän kiinteän muodon. [Vaikutukset teollisuuteen] Useimmat tekoälyyritykset käyttävät nykyään yleiskäyttöisiä LLM-ohjelmia, joissa pyydetään tehtäviin. Tiettyihin tehtäviin pienemmät mallit eivät välttämättä ole vain halvempia, vaan myös paljon laadukkaampia! Startupit voisivat (ja niiden pitäisi) kouluttaa malleja < 1000 dollarilla tiettyihin "kiinteän pituisiin" alitehtäviin (tietty PDF-poiminta, aikasarjojen ennustaminen jne.) ja käyttää sitä työkaluna yleiseen malliin suorituskyvyn parantamiseen, mutta myös merkityksellisen IP:n rakentamiseen tehtävään, jota he yrittävät automatisoida.
Lähde:
26,18K