Магазин DApp | Центр Web3 для подій та ігор

Актуальні теми

З моєї точки зору, rl просто є більш терпимим способом сказати синтетичні дані, які всі не любили два роки тому, коли я почав робити вибірку відбраковування для створення Hermes 1. Синтетичні дані (включаючи напівсинтетичні дані) присутні з моменту виходу ChatGPT.

@gregcoppola5d @kalomaze Для ясності нам знадобилося всього ~25 sft зразків, щоб побити той рекорд, який, безумовно, Grok зробив інтенсивним і дорогим rl

@niklassheth @kalomaze Те, що працює, — це все обертові розгортання з верифікаторами або кваліфікаторами даних. З цим все можливо. Онлайн-частина rl – це просто підвищення ефективності

10,6K

Найкращі

Рейтинг

Вибране