Popularne tematy
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Właśnie przeczytałem nowy artykuł LeJEPA autorstwa Yanna LeCuna i Randalla Balestriero. Byłem ciekaw, nad czym Yann ostatnio pracował, zwłaszcza biorąc pod uwagę wszystkie jego krytyki LLM (z którymi się nie zgadzam, ponieważ uważam, że LLM będą się nadal rozwijać i wkrótce doprowadzą nas do ASI).
W każdym razie, na X już jest kilka wątków dotyczących artykułu i tego, co wprowadza. Krótka wersja jest taka, że to zasadnicze, teoretycznie uzasadnione i oszczędne podejście do uczenia się z samonadzorem, które zastępuje skomplikowany miszmasz ad-hoc, chaotycznych heurystyk zapobiegających kolapsowi trybu, co jest zmorą uczenia się z samonadzorem.
To tam model się myli i zaczyna mapować wszystkie wejścia na prawie identyczne osadzenia lub na wąską podprzestrzeń osadzeń, redukując całe bogactwo problemu do patologicznie prostego i błędnego odpowiadającego.
Pierwszym filarem nowego podejścia jest ich dowód, że izotropowe rozkłady Gaussa unikalnie minimalizują ryzyko przewidywania w najgorszym przypadku.
Gdy tylko to przeczytałem, od razu pomyślałem o CMA-ES, najlepszym dostępnym algorytmie optymalizacji czarnej skrzynki, gdy nie masz dostępu do gradientu funkcji, którą próbujesz zminimalizować, ale możesz jedynie przeprowadzać (drogie/wolne) oceny funkcji.
Nikolaus Hansen pracuje nad CMA-ES od momentu, gdy wprowadził go w 1996 roku. Zawsze fascynowało mnie to podejście i używałem go z dużym sukcesem do efektywnego eksplorowania hiperparametrów głębokich sieci neuronowych w 2011 roku, zamiast przeprowadzać nieefektywne przeszukiwania siatki.
W każdym razie, powód, dla którego to poruszam, to uderzająca paralela i głęboki związek między tym podejściem a rdzeniem LeJEPA.
CMA-ES mówi: Zacznij od izotropowego rozkładu Gaussa, ponieważ jest to rozkład o maksymalnej entropii (najmniej stronniczy) biorąc pod uwagę jedynie ograniczenia wariancji. Następnie dostosuj kowariancję, aby poznać geometrię problemu.
LeJEPA mówi: Utrzymuj izotropowy rozkład Gaussa, ponieważ jest to rozkład o maksymalnej entropii (najmniej stronniczy) dla nieznanych przyszłych zadań.
Oba uznają, że izotropowość jest optymalna w warunkach niepewności z trzech powodów:
Zasada maksymalnej entropii; Spośród wszystkich rozkładów o stałej wariancji, izotropowy rozkład Gaussa ma maksymalną entropię; Tzn. robi najmniej założeń.
Nie ma stronniczości kierunkowej; Równa wariancja we wszystkich kierunkach oznacza, że nie zobowiązujesz się do żadnej konkretnej struktury problemu.
Osiągasz optymalność w najgorszym przypadku; Minimalizuj maksymalny żal wśród wszystkich możliwych geometrii problemu.
Więc jaka jest różnica? Chodzi o czas adaptacji. CMA-ES może dostosować się podczas optymalizacji; zaczyna od izotropowego, ale potem staje się anizotropowy, gdy poznaje konkretny krajobraz optymalizacji.
W przeciwieństwie do tego, LeJEPA musi pozostać izotropowy, ponieważ przygotowuje się do nieznanych zadań downstream, które jeszcze nie zostały zobaczone.
...

Najlepsze
Ranking
Ulubione

