Tokenisatie is slechts een speciaal geval van "chunking" - het inbouwen van gegevens op laag niveau in abstracties op hoog niveau - wat op zijn beurt fundamenteel is voor intelligentie. Onze nieuwe architectuur, die hiërarchische *dynamische chunking* mogelijk maakt, is niet alleen tokenizer-vrij, maar schaalt gewoon beter.
Sukjun (June) Hwang
Sukjun (June) Hwang12 jul 2025
Tokenisatie is de laatste barrière geweest voor echt end-to-end taalmodellen. We hebben de H-Net ontwikkeld: een hiërarchisch netwerk dat tokenisatie vervangt door een dynamisch chunkingproces direct binnen het model, dat automatisch betekenisvolle eenheden van gegevens ontdekt en ermee werkt.
Dit was een ongelooflijk belangrijk project voor mij - ik wilde het al jaren oplossen, maar had geen idee hoe. Dit was allemaal @sukjun_hwang en @fluorane geweldig werk! Ik schreef over het verhaal van de ontwikkeling en wat er daarna zou kunnen komen. Het H-Net:
194,76K