Popularne tematy
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
💥 Ogłaszamy GDPval, nową ewaluację, która mierzy wydajność modeli w zadaniach o wartości ekonomicznej w 44 zawodach.
Ewaluacje są jak testy dla modelu—w szkole masz testy z matematyki, testy ortograficzne, testy z historii. Już teraz robimy wiele, aby testować nasze modele pod kątem surowej mocy rozumowania.
Celem GDPval jest testowanie zadań, które profesjonaliści wykonują na co dzień — uwzględniając kontekst i tworząc wyniki takie jak dokumenty, prezentacje, diagramy i arkusze kalkulacyjne, w różnych zawodach, takich jak nieruchomości, administracja, praca socjalna, inżynieria mechaniczna, księgowość, pielęgniarstwo, obsługa klienta, doradztwo finansowe i inne.
Najlepsze modele (GPT-5, Claude, Gemini) jeszcze nie przewyższają ekspertów branżowych, ale są już bardzo blisko — a przy tym są szybsze i tańsze.
Gratulacje dla @tejalpatwardhan i zespołu za niesamowitą pracę nad GDPval!
23,16K
Najlepsze
Ranking
Ulubione