Stačí si přečíst nový článek LeJEPA od Yanna LeCuna a Randalla Balestriera. Byl jsem zvědavý, na čem Yann v poslední době pracuje, zejména s ohledem na všechny jeho kritiky LLM (s čímž nesouhlasím, protože si myslím, že LLM se budou neustále zlepšovat a poměrně brzy nás dovedou k ASI). Každopádně, na X je již několik vláken o článku a o tom, co představuje. Zkrácená verze je, že jde o principiální, teoreticky zdůvodněný a úsporný přístup k učení pod vlastním dohledem, který nahrazuje složitý mišmaš ad-hoc, hacknutých heuristik pro prevenci kolapsu režimu, což je prokletí učení pod vlastním dohledem. To je okamžik, kdy model pokazí a začne mapovat všechny vstupy na téměř identické vnoření nebo na úzký podprostor vnoření, čímž zhroutí veškerou bohatost problému do patologicky jednoduché a nesprávné korespondence. Prvním pilířem nového přístupu je důkaz, že izotropní Gaussova rozdělení jedinečně minimalizují riziko nejhoršího možného predikce v downstreamu. Jakmile jsem si to přečetl, okamžitě mě napadlo CMA-ES, nejlepší dostupný optimalizační algoritmus černé skříňky pro případy, kdy nemáte přístup k gradientu funkce, kterou se snažíte minimalizovat, ale můžete provádět pouze (drahé/pomalé) vyhodnocení funkce. Nikolaus Hansen pracuje na CMA-ES od jeho představení v roce 1996. Vždy jsem byl fascinován tímto přístupem a v roce 2011 jsem jej s velkým úspěchem používal k efektivnímu prozkoumání hyperparametrů hlubokých neuronových sítí namísto neefektivního prohledávání mřížky. Každopádně, důvod, proč to zmiňuji, je ten, že existuje pozoruhodná paralela a hluboké spojení mezi tímto přístupem a jádrem LeJEPA. CMA-ES říká: Začněte s izotropním Gaussovem, protože je to distribuce maximální entropie (nejméně vychýlená) za předpokladu pouze omezení rozptylu. Poté upravte kovarianci tak, abyste se naučili geometrii problému. LeJEPA říká: Udržujte izotropní Gaussovskou distribuci protože je to distribuce maximální entropie (nejméně zkreslená) pro neznámé budoucí úlohy. Oba uznávají, že izotropie je optimální za neurčitosti ze tří důvodů: Princip maximální entropie; Mezi všemi distribucemi s pevným rozptylem má izotropní Gaussův systém maximální entropii; Tj. dělá nejméně předpokladů. Neexistuje žádná směrová zaujatost; Stejná odchylka ve všech směrech znamená, že se předem nezavazujete k žádné konkrétní struktuře problému. Získáte optimalitu v nejhorším případě; Minimalizujte maximální lítost ve všech možných geometriích problémů. Jaký je tedy rozdíl? Záleží na načasování adaptace. CMA-ES se může přizpůsobit během optimalizace; Začíná izotropně, ale poté se stane anizotropním, protože se učí specifické optimalizační prostředí. Naproti tomu LeJEPA musí zůstat izotropní, protože se připravuje na neznámé navazující úkoly, které dosud nebyly pozorovány. ...