Właśnie przeczytałem nowy artykuł LeJEPA autorstwa Yanna LeCuna i Randalla Balestriero. Byłem ciekaw, nad czym Yann ostatnio pracował, zwłaszcza biorąc pod uwagę wszystkie jego krytyki LLM (z którymi się nie zgadzam, ponieważ uważam, że LLM będą się nadal rozwijać i wkrótce doprowadzą nas do ASI). W każdym razie, na X już jest kilka wątków dotyczących artykułu i tego, co wprowadza. Krótka wersja jest taka, że to zasadnicze, teoretycznie uzasadnione i oszczędne podejście do uczenia się z samonadzorem, które zastępuje skomplikowany miszmasz ad-hoc, chaotycznych heurystyk zapobiegających kolapsowi trybu, co jest zmorą uczenia się z samonadzorem. To tam model się myli i zaczyna mapować wszystkie wejścia na prawie identyczne osadzenia lub na wąską podprzestrzeń osadzeń, redukując całe bogactwo problemu do patologicznie prostego i błędnego odpowiadającego. Pierwszym filarem nowego podejścia jest ich dowód, że izotropowe rozkłady Gaussa unikalnie minimalizują ryzyko przewidywania w najgorszym przypadku. Gdy tylko to przeczytałem, od razu pomyślałem o CMA-ES, najlepszym dostępnym algorytmie optymalizacji czarnej skrzynki, gdy nie masz dostępu do gradientu funkcji, którą próbujesz zminimalizować, ale możesz jedynie przeprowadzać (drogie/wolne) oceny funkcji. Nikolaus Hansen pracuje nad CMA-ES od momentu, gdy wprowadził go w 1996 roku. Zawsze fascynowało mnie to podejście i używałem go z dużym sukcesem do efektywnego eksplorowania hiperparametrów głębokich sieci neuronowych w 2011 roku, zamiast przeprowadzać nieefektywne przeszukiwania siatki. W każdym razie, powód, dla którego to poruszam, to uderzająca paralela i głęboki związek między tym podejściem a rdzeniem LeJEPA. CMA-ES mówi: Zacznij od izotropowego rozkładu Gaussa, ponieważ jest to rozkład o maksymalnej entropii (najmniej stronniczy) biorąc pod uwagę jedynie ograniczenia wariancji. Następnie dostosuj kowariancję, aby poznać geometrię problemu. LeJEPA mówi: Utrzymuj izotropowy rozkład Gaussa, ponieważ jest to rozkład o maksymalnej entropii (najmniej stronniczy) dla nieznanych przyszłych zadań. Oba uznają, że izotropowość jest optymalna w warunkach niepewności z trzech powodów: Zasada maksymalnej entropii; Spośród wszystkich rozkładów o stałej wariancji, izotropowy rozkład Gaussa ma maksymalną entropię; Tzn. robi najmniej założeń. Nie ma stronniczości kierunkowej; Równa wariancja we wszystkich kierunkach oznacza, że nie zobowiązujesz się do żadnej konkretnej struktury problemu. Osiągasz optymalność w najgorszym przypadku; Minimalizuj maksymalny żal wśród wszystkich możliwych geometrii problemu. Więc jaka jest różnica? Chodzi o czas adaptacji. CMA-ES może dostosować się podczas optymalizacji; zaczyna od izotropowego, ale potem staje się anizotropowy, gdy poznaje konkretny krajobraz optymalizacji. W przeciwieństwie do tego, LeJEPA musi pozostać izotropowy, ponieważ przygotowuje się do nieznanych zadań downstream, które jeszcze nie zostały zobaczone. ...