Актуальні теми
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
З моєї точки зору, rl просто є більш терпимим способом сказати синтетичні дані, які всі не любили два роки тому, коли я почав робити вибірку відбраковування для створення Hermes 1.
Синтетичні дані (включаючи напівсинтетичні дані) присутні з моменту виходу ChatGPT.

15 жовт., 14:33
люди, які кажуть, туманно і без пояснень, що RL Is Not The Future, завжди збивають мене з пантелику
це все одно, що списувати «навчання без нагляду» на «не майбутнє»
@gregcoppola5d @kalomaze Для ясності нам знадобилося всього ~25 sft зразків, щоб побити той рекорд, який, безумовно, Grok зробив інтенсивним і дорогим rl
@niklassheth @kalomaze Те, що працює, — це все обертові розгортання з верифікаторами або кваліфікаторами даних. З цим все можливо. Онлайн-частина rl – це просто підвищення ефективності
10,6K
Найкращі
Рейтинг
Вибране