Токенизация была последним барьером для по-настоящему сквозных языковых моделей. Мы разработали H-Net: иерархическую сеть, которая заменяет токенизацию динамическим процессом разбиения прямо внутри модели, автоматически обнаруживая и работая с осмысленными единицами данных.
Мы невероятно рады видеть, как H-Nets позволит моделям обучаться более эффективно, с меньшим количеством предварительных запросов и предварительной обработки, во всех видах модальностей! Эта работа была результатом сотрудничества с @cartesia_ai 10/10
653,34K