З моєї точки зору, rl просто є більш терпимим способом сказати синтетичні дані, які всі не любили два роки тому, коли я почав робити вибірку відбраковування для створення Hermes 1. Синтетичні дані (включаючи напівсинтетичні дані) присутні з моменту виходу ChatGPT.
aurelium /ɔˈreːliəm/
aurelium /ɔˈreːliəm/15 жовт., 14:33
люди, які кажуть, туманно і без пояснень, що RL Is Not The Future, завжди збивають мене з пантелику це все одно, що списувати «навчання без нагляду» на «не майбутнє»
@gregcoppola5d @kalomaze Для ясності нам знадобилося всього ~25 sft зразків, щоб побити той рекорд, який, безумовно, Grok зробив інтенсивним і дорогим rl
@niklassheth @kalomaze Те, що працює, — це все обертові розгортання з верифікаторами або кваліфікаторами даних. З цим все можливо. Онлайн-частина rl – це просто підвищення ефективності
10,6K