Seseorang memberi tahu saya apa yang saya lewatkan di sini, karena klaim berjudul tampaknya salah bagi saya: mereka mendefinisikan LLM sebagai fungsi yang memetakan urutan s dalam V^k ke vektor dalam R^d asumsikan keadaan tersembunyi dalam presisi n-bit. Pada titik tertentu, ada lebih banyak input yang mungkin daripada status tersembunyi: |V|^k > 2^{n * d} k > n d log(2) / log |V| mari kita ambil GPT-2: n=16, d=768, V≈50.000 Kemudian tabrakan *harus* terjadi mulai dari ukuran jendela konteks 214 token Ini tampaknya sebenarnya agak buruk, bukan?