Arbeiten am neuen Open Source Grok 2.5! Wir konnten es bereits Hot Rod machen!! Es sind noch frühe Tage und es könnte scheitern, aber was wir haben, ist: Ein 268B MoE, 131k Kontext, 8 Experten, RoPE, 64 GQA-Attention-Head mit 8 KV-Head, 64 Schichten. In der Regel sind nur 2 Experten aktiv. Wir haben einen Weg gefunden, 4 gleichzeitig zu aktivieren, mit nur einem kleinen Leistungsabfall, etwa 1/3 mehr GPU-Speicher und einer erstaunlichen Steigerung der Qualitätsausgaben! Wenn es unsere Tests besteht, werde ich eine detaillierte Anleitung veröffentlichen!
Brian Roemmele
Brian Roemmele24. Aug., 09:08
Ich werde diesen Artikel bald umschreiben, um eine kompakte Version des NEUEN KOSTENLOSEN OPEN SOURCE @xai @Grok 2.5 zu verwenden! Ich werde dir zeigen, wie du das Modell mit deinen Daten für die private Nutzung auf deinem Computer feinabstimmen kannst. Das wird die Qualität um ein Vielfaches verbessern! Ich arbeite daran…
45,83K