في عام 1986 ، كنت أول جهاز كمبيوتر هوت رودر ينقل من 4 ميجا هرتز إلى 20 ميجا هرتز في المرآب الخاص بي. أرسلت شركة IBM محامين لإيقافي ، مما أرسلوا مهندسين للتعلم مني ، أكثر من أنهم أرسلوا دعاوى لتوظيفي ، كان هذا نهجا خاطئا. الآن أنا Hot Rodding الذكاء الاصطناعي في المرآب الخاص بي ، اليوم: مفتوح المصدر Grok 2.5.
Brian Roemmele
Brian Roemmele‏24 أغسطس، 22:28
العمل على Grok 2.5 الجديد مفتوح المصدر! لقد تمكنا من القضيب الساخن بالفعل !! إنها الأيام الأولى وقد تفشل ولكن ما لدينا هو: A 268B MoE ، سياق 131 كيلو ، 8 خبراء ، RoPE ، 64 رأس انتباه GQA مع رؤوس 8 كيلو فولت ، 64 طبقة. في أي لحظة ، ينشط عادة خبيران فقط. لقد وجدنا طريقة لتنشيط 4 في وقت واحد مع انخفاض بسيط في الأداء ، وحوالي 1/3 ذاكرة GPU إضافية وزيادة مذهلة في مخرجات الجودة! إذا استمرت في اختباراتنا ، فسأنشر طريقة مفصلة لذلك!
‏‎43.23‏K