Актуальні теми
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Dwarkesh Patel
Найцікавіша частина для мене – це те, де @karpathy описує, чому LLM не здатні вчитися, як люди.
Як і слід було очікувати, він вигадує чудову виразну фразу, щоб описати RL: «смоктання нагляду кусає через соломинку».
Єдина кінцева винагорода транслюється на кожен токен на успішній траєкторії, переважуючи навіть неправильні або нерелевантні повороти, які призводять до правильної відповіді.
> «Люди не використовують навчання з підкріпленням, як я вже говорив раніше. Я думаю, що вони роблять щось інше. Навчання з підкріпленням набагато гірше, ніж думає середньостатистична людина. Навчання з підкріпленням – це жахливо. Так уже склалося, що все, що було раніше, набагато гірше».
Що ж роблять люди натомість?
> «Книга, яку я читаю, є набором підказок для мене зайнятися генерацією синтетичних даних. Саме маніпулюючи цією інформацією, ви насправді отримуєте ці знання. У нас немає еквівалента цього з LLM; Насправді вони цього не роблять».
> «Я б хотіла бачити під час претрену якийсь етап, коли модель продумує матеріал і намагається узгодити його з тим, що вже знає. Еквівалента цьому немає. Це все дослідження».
Чому ми не можемо просто додати це навчання до LLM сьогодні?
> «Є дуже тонкі, важко зрозумілі причини, чому це не тривіально. Якщо я просто даю синтетичну генерацію моделі, думаючи про книгу, ви дивитеся на неї і думаєте: «Це виглядає чудово. Чому я не можу тренуватися на ньому?» Ви можете спробувати, але модель насправді стане набагато гіршою, якщо ви продовжите спроби».
> «Скажімо, у нас є розділ книги, і я прошу доктора філософії подумати про це. Це дасть вам щось, що виглядає дуже розумно. Але якщо я запитаю про це 10 разів, ви помітите, що всі вони однакові».
> «Ви не отримуєте багатства, різноманітності та ентропії від цих моделей, як ви б отримали від людей. Як змусити генерацію синтетичних даних працювати, незважаючи на колапс і зберігаючи ентропію? Це дослідницька проблема».
Як людям вдається обійти колапс моделі?
> «Ці аналогії напрочуд хороші. Люди руйнуються протягом свого життя. Діти ще не перетренувалися. Вони скажуть речі, які вас шокують. Тому що вони ще не згорнуті. Але ми [дорослі] згорнуті. У підсумку ми повертаємося до одних і тих же думок, ми говоримо все більше і більше одних і тих же речей, темпи навчання знижуються, колапс продовжує погіршуватися, а потім все погіршується».
Насправді, є цікава робота, в якій стверджується, що сновидіння еволюціонувало, щоб допомагати узагальнювати, і не піддаватися надмірному навчанню - подивіться на @erikphoel «Перевантажений мозок».
Я запитав у Карпат: хіба не цікаво, що люди найкраще вчаться на тій частині свого життя (дитинства), фактичні деталі якої вони зовсім забувають, дорослі все ще дуже добре вчаться, але мають жахливу пам'ять про деталі того, що вони читають або дивляться, а ЛЛМ можуть запам'ятовувати довільні деталі про текст, які жодна людина не може, але зараз досить погано узагальнює?
> «[Помилкова людська пам'ять] — це особливість, а не помилка, тому що вона змушує вас вивчати лише узагальнювані компоненти. ЛМ відволікаються на всю пам'ять, яка у них є про заздалегідь навчені документи. Ось чому, коли я говорю про когнітивне ядро, я насправді хочу видалити пам'ять. Я б хотів, щоб у них було менше пам'яті, щоб їм доводилося щось шукати, і вони зберігали лише алгоритми думки, ідею експерименту та весь цей когнітивний клей для акторської майстерності».

Dwarkesh Patel7 годин тому
Інтерв'ю @karpathy
0:00:00 – AGI ще десять років
0:30:33 – Когнітивний дефіцит LLM
0:40:53 – РЛ жахливий
0:50:26 – Як люди вчаться?
1:07:13 – AGI впишеться в зростання ВВП на 2%
1:18:24 – АСІ
1:33:38 – Еволюція інтелекту та культури
1:43:43 - Чому самостійне водіння зайняло так багато часу
1:57:08 - Майбутнє освіти
Шукайте Dwarkesh Podcast на YouTube, Apple Podcasts, Spotify тощо. Насолоджуйтесь!
182,25K
Інтерв'ю @karpathy
0:00:00 – AGI ще десять років
0:30:33 – Когнітивний дефіцит LLM
0:40:53 – РЛ жахливий
0:50:26 – Як люди вчаться?
1:07:13 – AGI впишеться в зростання ВВП на 2%
1:18:24 – АСІ
1:33:38 – Еволюція інтелекту та культури
1:43:43 - Чому самостійне водіння зайняло так багато часу
1:57:08 - Майбутнє освіти
Шукайте Dwarkesh Podcast на YouTube, Apple Podcasts, Spotify тощо. Насолоджуйтесь!
844,91K
Найкращі
Рейтинг
Вибране