Tokenisointi on vain erikoistapaus "paloittelusta" - matalan tason datan rakentamisesta korkean tason abstraktioiksi - mikä puolestaan on älykkyyden perusta. Uusi arkkitehtuurimme, joka mahdollistaa hierarkkisen *dynaamisen paloittelun*, ei ole vain tokenisoijavapaa, vaan se yksinkertaisesti skaalautuu paremmin.
Sukjun (June) Hwang
Sukjun (June) Hwang12.7.2025
Tokenization has been the final barrier to truly end-to-end language models. We developed the H-Net: a hierarchical network that replaces tokenization with a dynamic chunking process directly inside the model, automatically discovering and operating over meaningful units of data
Tämä oli minulle uskomattoman tärkeä projekti - olen halunnut ratkaista sen vuosia, mutta minulla ei ollut aavistustakaan, miten. Tämä kaikki oli @sukjun_hwang ja @fluorane hämmästyttävää työtä! Kirjoitin sen kehitystarinasta ja siitä, mitä voisi olla tulossa seuraavaksi. The H-Net:
159