ai đó cho tôi biết tôi đang thiếu gì ở đây, vì tuyên bố có tiêu đề dường như là sai một cách hiển nhiên với tôi: họ định nghĩa một LLM là một hàm ánh xạ chuỗi s trong V^k thành vector trong R^d giả sử trạng thái ẩn ở độ chính xác n-bit. vào một thời điểm nào đó, có nhiều đầu vào hơn trạng thái ẩn: |V|^k > 2^{n * d} k > n d log(2) / log |V| hãy lấy GPT-2: n=16, d=768, V≈50,000 thì các va chạm *phải* xảy ra bắt đầu từ kích thước cửa sổ ngữ cảnh 214 token điều này thực sự có vẻ không tốt, đúng không?