Die Tokenisierung ist nur ein Spezialfall des "Chunking" - des Aufbaus von Low-Level-Daten in High-Level-Abstraktionen - was wiederum für die Intelligenz von grundlegender Bedeutung ist. Unsere neue Architektur, die hierarchisches *dynamisches Chunking* ermöglicht, ist nicht nur tokenizerfrei, sondern skaliert einfach besser.
Sukjun (June) Hwang
Sukjun (June) Hwang12. Juli 2025
Die Tokenisierung war die letzte Hürde für wirklich durchgängige Sprachmodelle. Wir haben das H-Net entwickelt: ein hierarchisches Netzwerk, das die Tokenisierung durch einen dynamischen Chunking-Prozess direkt im Modell ersetzt, der automatisch bedeutungsvolle Dateneinheiten entdeckt und verarbeitet.
Das war ein unglaublich wichtiges Projekt für mich - ich wollte es schon seit Jahren lösen, hatte aber keine Ahnung, wie. Das war alles @sukjun_hwang und @fluorane erstaunliche Arbeit! Ich schrieb über die Geschichte seiner Entwicklung und darüber, was als nächstes kommen könnte. Das H-Net:
194,75K