我们能否构建出能以今天 GPU 能耗的 1/10,000 生成高质量图像的 AI 芯片? 研究论文:《一种高效的用于扩散类模型的概率硬件架构》 这项工作揭示了一种完整的 CMOS(全晶体管)架构,能够原生运行扩散风格的生成模型——不是通过耗电的神经网络,而是通过基于能量的概率采样。通过串联紧凑的去噪模型(DTMs)并利用标准 65 纳米芯片中的物理随机性,该系统生成的图像与 GPU 相当,但每个 Fashion-MNIST 样本仅消耗 1.6 纳焦——能耗降低了四个数量级。通过一种新颖的自适应惩罚来稳定训练,该方法可扩展到毫米级硅片,而无需特殊硬件。 结果:在能耗降低约 10,000 倍的情况下,质量与 GAN/VAE/扩散相匹配或超越;70×70 网格,8 层堆叠,已发布开源工具。 在这里获取完整分析: // alpha identified // $yne