La tokenisation n’est qu’un cas particulier de « chunking » - la construction de données de bas niveau en abstractions de haut niveau - qui est à son tour fondamentale pour l’intelligence. Notre nouvelle architecture, qui permet le *chunking dynamique* hiérarchique, est non seulement sans tokenizer, mais évolue tout simplement mieux.
Sukjun (June) Hwang
Sukjun (June) Hwang12 juil. 2025
Tokenization has been the final barrier to truly end-to-end language models. We developed the H-Net: a hierarchical network that replaces tokenization with a dynamic chunking process directly inside the model, automatically discovering and operating over meaningful units of data
C’était un projet incroyablement important pour moi - je voulais le résoudre depuis des années, mais je ne savais pas comment. C’était tout @sukjun_hwang et @fluorane travail incroyable ! J’ai écrit sur l’histoire de son développement et sur ce qui pourrait arriver ensuite. Le H-Net :
194,75K