Có đề xuất nào về các tài liệu giới thiệu cách tiếp cận bộ nhớ trong các mô hình transformer không? Nó nên ở mức độ giới thiệu mà không hy sinh tính cụ thể kỹ thuật. Có đáng để viết một cái không?