Найцікавіша частина для мене – це те, де @karpathy описує, чому LLM не здатні вчитися, як люди. Як і слід було очікувати, він вигадує чудову виразну фразу, щоб описати RL: «смоктання нагляду кусає через соломинку». Єдина кінцева винагорода транслюється на кожен токен на успішній траєкторії, переважуючи навіть неправильні або нерелевантні повороти, які призводять до правильної відповіді. > «Люди не використовують навчання з підкріпленням, як я вже говорив раніше. Я думаю, що вони роблять щось інше. Навчання з підкріпленням набагато гірше, ніж думає середньостатистична людина. Навчання з підкріпленням – це жахливо. Так уже склалося, що все, що було раніше, набагато гірше». Що ж роблять люди натомість? > «Книга, яку я читаю, є набором підказок для мене зайнятися генерацією синтетичних даних. Саме маніпулюючи цією інформацією, ви насправді отримуєте ці знання. У нас немає еквівалента цього з LLM; Насправді вони цього не роблять». > «Я б хотіла бачити під час претрену якийсь етап, коли модель продумує матеріал і намагається узгодити його з тим, що вже знає. Еквівалента цьому немає. Це все дослідження». Чому ми не можемо просто додати це навчання до LLM сьогодні? > «Є дуже тонкі, важко зрозумілі причини, чому це не тривіально. Якщо я просто даю синтетичну генерацію моделі, думаючи про книгу, ви дивитеся на неї і думаєте: «Це виглядає чудово. Чому я не можу тренуватися на ньому?» Ви можете спробувати, але модель насправді стане набагато гіршою, якщо ви продовжите спроби». > «Скажімо, у нас є розділ книги, і я прошу доктора філософії подумати про це. Це дасть вам щось, що виглядає дуже розумно. Але якщо я запитаю про це 10 разів, ви помітите, що всі вони однакові». > «Ви не отримуєте багатства, різноманітності та ентропії від цих моделей, як ви б отримали від людей. Як змусити генерацію синтетичних даних працювати, незважаючи на колапс і зберігаючи ентропію? Це дослідницька проблема». Як людям вдається обійти колапс моделі? > «Ці аналогії напрочуд хороші. Люди руйнуються протягом свого життя. Діти ще не перетренувалися. Вони скажуть речі, які вас шокують. Тому що вони ще не згорнуті. Але ми [дорослі] згорнуті. У підсумку ми повертаємося до одних і тих же думок, ми говоримо все більше і більше одних і тих же речей, темпи навчання знижуються, колапс продовжує погіршуватися, а потім все погіршується». Насправді, є цікава робота, в якій стверджується, що сновидіння еволюціонувало, щоб допомагати узагальнювати, і не піддаватися надмірному навчанню - подивіться на @erikphoel «Перевантажений мозок». Я запитав у Карпат: хіба не цікаво, що люди найкраще вчаться на тій частині свого життя (дитинства), фактичні деталі якої вони зовсім забувають, дорослі все ще дуже добре вчаться, але мають жахливу пам'ять про деталі того, що вони читають або дивляться, а ЛЛМ можуть запам'ятовувати довільні деталі про текст, які жодна людина не може, але зараз досить погано узагальнює? ...