أخبرني أحدهم بما أفتقده هنا ، لأن الادعاء بعنوان يبدو خاطئا بشكل تافه بالنسبة لي: يعرفون LLM كدالة تقوم بتعيين التسلسل s في V ^ k إلى المتجه في R ^ d افترض الحالة المخفية بدقة n-bit. في مرحلة ما ، هناك مدخلات ممكنة أكثر من الحالات المخفية: |V|^k > 2^{n * d} k > n d log(2) / سجل |خامس | لنأخذ GPT-2: ن = 16 ، د = 768 ، V≈50,000 ثم التصادمات * يجب * أن تحدث بدءا من حجم نافذة السياق 214 رمزا مميزا هذا يبدو في الواقع سيئا نوعا ما ، أليس كذلك؟