La tokenización es solo un caso especial de "fragmentación", la construcción de datos de bajo nivel en abstracciones de alto nivel, que a su vez es fundamental para la inteligencia. Nuestra nueva arquitectura, que permite la *fragmentación dinámica* jerárquica, no solo está libre de tokenizadores, sino que simplemente escala mejor.
Sukjun (June) Hwang
Sukjun (June) Hwang12 jul 2025
La tokenización ha sido la última barrera para los modelos de lenguaje verdaderamente integrales. Desarrollamos la H-Net: una red jerárquica que reemplaza la tokenización con un proceso de fragmentación dinámica directamente dentro del modelo, descubriendo y operando automáticamente sobre unidades significativas de datos
Este fue un proyecto increíblemente importante para mí: he querido resolverlo durante años, pero no tenía idea de cómo. ¡Todo esto fue @sukjun_hwang y @fluorane increíble trabajo! Escribí sobre la historia de su desarrollo y lo que podría venir después. La H-Net:
194.74K