Токенизация — это всего лишь частный случай «фрагментации» — превращения низкоуровневых данных в высокоуровневые абстракции, что, в свою очередь, является фундаментальным для интеллекта. Наша новая архитектура, которая обеспечивает иерархическое *динамическое фрагментирование*, не только не требует маркеров, но и просто лучше масштабируется.
Sukjun (June) Hwang
Sukjun (June) Hwang12 июл. 2025 г.
Токенизация была последним барьером для по-настоящему сквозных языковых моделей. Мы разработали H-Net: иерархическую сеть, которая заменяет токенизацию динамическим процессом разбиения прямо внутри модели, автоматически обнаруживая и работая с осмысленными единицами данных.
Это был невероятно важный проект для меня - я хотел решить его в течение многих лет, но понятия не имел, как это сделать. Это все было @sukjun_hwang и @fluorane потрясающая работа! Я писал о том, как он развивался, и о том, что может быть дальше. The H-Net:
194,75K