Tokenization chỉ là một trường hợp đặc biệt của "chunking" - xây dựng dữ liệu cấp thấp thành các trừu tượng cấp cao - đây là nền tảng của trí thông minh. Kiến trúc mới của chúng tôi, cho phép phân chia theo phân cấp *phân đoạn động*, không chỉ không có mã hóa mà còn đơn giản là mở rộng quy mô tốt hơn.
Sukjun (June) Hwang
Sukjun (June) Hwang12 thg 7, 2025
Việc phân đoạn đã là rào cản cuối cùng đối với các mô hình ngôn ngữ thực sự từ đầu đến cuối. Chúng tôi đã phát triển H-Net: một mạng lưới phân cấp thay thế việc phân đoạn bằng một quy trình chia khối động ngay bên trong mô hình, tự động phát hiện và hoạt động trên các đơn vị dữ liệu có ý nghĩa.
Đây là một dự án cực kỳ quan trọng đối với tôi - tôi đã muốn giải quyết nó trong nhiều năm, nhưng không biết làm thế nào. Đây là tất cả @sukjun_hwang và công việc tuyệt vời của @fluorane! Tôi đã viết về câu chuyện về sự phát triển của nó, và những gì có thể xảy ra tiếp theo. The H-Net:
194,78K