Tokenisatie is de laatste barrière geweest voor echt end-to-end taalmodellen. We hebben de H-Net ontwikkeld: een hiërarchisch netwerk dat tokenisatie vervangt door een dynamisch chunkingproces direct binnen het model, dat automatisch betekenisvolle eenheden van gegevens ontdekt en ermee werkt.
We zijn ongelooflijk enthousiast om te zien hoe H-Nets modellen in staat zal stellen efficiënter te leren, met minder priors en voorbewerking, over allerlei modaliteiten! Dit werk was een samenwerking met @cartesia_ai 10/10
653,34K