Die Tokenisierung war die letzte Hürde für wirklich durchgängige Sprachmodelle. Wir haben das H-Net entwickelt: ein hierarchisches Netzwerk, das die Tokenisierung durch einen dynamischen Chunking-Prozess direkt im Modell ersetzt, der automatisch bedeutungsvolle Dateneinheiten entdeckt und verarbeitet.
Wir sind unglaublich gespannt darauf, wie H-Nets es Modellen ermöglichen wird, effizienter zu lernen, mit weniger Prioren und Vorverarbeitung, und das über alle möglichen Modalitäten hinweg! Diese Arbeit entstand in Zusammenarbeit mit @cartesia_ai 10/10
653,33K