DeepSeekは最近mHC(多様体制約ハイパーコネクション)を発表しました。 トランスフォーマーがより広い「思考の流れ」(より多くの並行レーン)を走らせるための洗練されたアーキテクチャ調整で、訓練を不安定にすることなく。 単にGPUやFLOPを増やすことなく、より強力な推論、より良いベンチマーク、高品質な出力を解き放ちます