Nghiên cứu điển hình mới của chúng tôi về cách mà Sijun Tan (@sijun_tan) từ Phòng thí nghiệm Điện toán Trời UC Berkeley, người từng là trưởng dự án tại @Agentica_, đã xây dựng LLoCO - một kỹ thuật cho phép xử lý ngữ cảnh 128k với 30× ít token hơn và suy diễn nhanh hơn 7.62×. Được hỗ trợ bởi GPU H100 của Hyperbolic Labs.
1,94K