Tokenizacja była ostatnią barierą dla prawdziwie end-to-end modeli językowych. Opracowaliśmy H-Net: hierarchiczną sieć, która zastępuje tokenizację dynamicznym procesem dzielenia bezpośrednio w modelu, automatycznie odkrywając i operując na znaczących jednostkach danych.
Nie możemy się doczekać, aby zobaczyć, jak H-Nets pozwoli modelom uczyć się wydajniej, przy mniejszej liczbie wstępnych procesów i przetwarzania wstępnego, we wszystkich rodzajach modalności! Praca ta powstała we współpracy z @cartesia_ai 10/10
653,33K