Vielleicht ist top-k alles, was du brauchst. Zuerst kam es für die MLP - Switch-Style MoEs Jetzt kommt es für die Aufmerksamkeit - DSV3.2 spärliche Aufmerksamkeit