在单个 M3 Ultra 上运行 Ring 1T 推理模型,使用 mlx-lm。 它的权重量化为 3.5 位。使用了 440GB,并以 18.2 个 token/秒生成了大约 6k 个 token。 离在家中使用 GPT-5 更近了。
这是它生成的太空入侵者游戏:
48.65K