トークン化は、低レベルのデータを高レベルの抽象化に構築する「チャンク」の特殊なケースにすぎず、インテリジェンスの基本となります。 階層的な*動的チャンク*を可能にする新しいアーキテクチャは、トークナイザーがないだけでなく、単純に拡張性が向上しています。
Sukjun (June) Hwang
Sukjun (June) Hwang2025年7月12日
Tokenization has been the final barrier to truly end-to-end language models. We developed the H-Net: a hierarchical network that replaces tokenization with a dynamic chunking process directly inside the model, automatically discovering and operating over meaningful units of data
これは私にとって非常に重要なプロジェクトでした - 何年も前から解決したいと思っていましたが、その方法がわかりませんでした。これはすべて@sukjun_hwangであり、@fluoraneの素晴らしい仕事でした。 私はその発展のストーリーと、次に何が起こるかについて書きました。 H-ネット:
194.75K