Ho appena letto il nuovo documento LeJEPA di Yann LeCun e Randall Balestriero. Sono curioso di sapere su cosa stia lavorando Yann ultimamente, soprattutto considerando tutte le sue critiche agli LLM (con cui non sono d'accordo, poiché penso che gli LLM continueranno a migliorare e ci porteranno all'ASI abbastanza presto). Comunque, ci sono già diversi thread su X riguardo al documento e a ciò che introduce. La versione breve è che si tratta di un approccio principled, teoricamente giustificato e parsimonioso all'apprendimento auto-supervisionato che sostituisce un complesso miscuglio di euristiche ad-hoc e improvvisate per prevenire il collasso della modalità, che è la maledizione dell'apprendimento auto-supervisionato. È lì che il modello sbaglia e inizia a mappare tutti gli input a embedding quasi identici o a un sottospazio ristretto di embedding, riducendo tutta la ricchezza del problema a una corrispondenza patologicamente semplice e sbagliata. Il primo pilastro del nuovo approccio è la loro prova che le distribuzioni gaussiane isotrope minimizzano in modo unico il rischio di previsione peggiore nei casi peggiori. Non appena ho letto questo, ho subito pensato a CMA-ES, il miglior algoritmo di ottimizzazione black-box disponibile quando non hai accesso al gradiente della funzione che stai cercando di minimizzare, ma puoi solo fare valutazioni della funzione (costose/lente). Nikolaus Hansen sta lavorando su CMA-ES da quando lo ha introdotto nel lontano 1996. Sono sempre stato affascinato da questo approccio e l'ho usato con molto successo per esplorare in modo efficiente gli iperparametri delle reti neurali profonde nel 2011 invece di fare ricerche su griglia inefficienti. Comunque, il motivo per cui ne parlo è che c'è un parallelo sorprendente e una profonda connessione tra quell'approccio e il nucleo di LeJEPA. CMA-ES dice: Inizia con una gaussiana isotropa perché è la distribuzione di massima entropia (meno distorta) data solo le restrizioni di varianza. Poi adatta la covarianza per apprendere la geometria del problema. LeJEPA dice: Mantieni una gaussiana isotropa perché è la distribuzione di massima entropia (meno distorta) per compiti futuri sconosciuti. Entrambi riconoscono che l'isotropia è ottimale sotto incertezza per tre motivi: Il principio di massima entropia; Tra tutte le distribuzioni con varianza fissa, la gaussiana isotropa ha massima entropia; Cioè, fa il minor numero di assunzioni. Non c'è bias direzionale; La varianza uguale in tutte le direzioni significa che non ti stai impegnando in alcuna particolare struttura del problema. Ottieni ottimalità nel peggiore dei casi; Minimizza il massimo rimpianto attraverso tutte le possibili geometrie del problema. Quindi, qual è la differenza? Si riduce al momento dell'adattamento. CMA-ES può adattarsi durante l'ottimizzazione; inizia isotropo ma poi diventa anisotropo man mano che apprende il paesaggio di ottimizzazione specifico. Al contrario, LeJEPA deve rimanere isotropo perché si sta preparando per compiti futuri sconosciuti che non sono stati ancora visti. ...