华为开源SINQ量化技术：236B模型单卡运行，AI部署成本迎重大转折

AI科技 2025年10月07日 15:39 0 aa

10月6日消息，据华为苏黎世计算系统实验室9月26日公开信息，其开源的全新量化技术SINQ（Sinkhorn归一化量化）已正式登陆GitHub和Hugging Face。这一技术通过算法层面的革新，将大语言模型的显存占用直接削减60%至70%，使得原本需6张高端GPU（如A100）才能运行的2360亿参数模型，现可压缩至单张RTX 4090（24GB显存）即可部署。

“硬件堆砌”困局下的破壁之举

当前AI大模型部署面临的核心矛盾在于：模型参数规模每翻一倍，硬件成本呈指数级增长。以DeepSeek-V2.5（236B参数）为例，原始FP32模型需472GB显存，远超消费级GPU上限。

而SINQ通过动态双尺度机制与Sinkhorn归一化算法，将离群值的影响分摊至整个权重矩阵，在4bit量化下仅产生0.12的困惑度损失，却将显存需求压至110GB。

华为实验室测试显示，其量化速度比传统校准方案AWQ快30倍，5分钟内即可完成236B模型的压缩。

SINQ的突破性不仅体现在压缩效率上，更在于其“架构无关”的特性。无论是Transformer、MoE还是新型注意力机制（如DeepSeek-V3的MLA），均无需修改代码即可适配。这意味着中小企业和个人开发者可用单张RTX 4090实现过去需集群支撑的模型能力，大幅降低创新门槛。有业内人士指出，此举可能重构AI算力市场格局——云端推理成本或从每百万tokens 2-5美元降至0.5-1美元，并加速国产芯片在边缘计算场景的落地。