华为昇腾 0Day 支持 DeepSeek-V3.2-Exp

景点排名 2025年09月29日 20:45 1 aa

IT之家 9 月 29 日消息，今晚，DeepSeek-V3.2-Exp 发布并开源，引入稀疏 Attention 架构。华为宣布昇腾已快速基于 vLLM/SGLang 等推理框架完成适配部署，实现 DeepSeek-V3.2-Exp 0day 支持，并面向开发者开源所有推理代码和算子实现。

IT之家从官方介绍获悉，昇腾在 DeepSeek-V3.2-Exp 一发布开源即实现了 DeepSeek-V3.2-Exp BF16 模型部署，并在 CANN 平台上完成对应的优化适配，整体部署策略沿用 DeepSeek 的大 EP 并行方案，针对稀疏 DSA 结构，叠加实现长序列亲和的 CP 并行策略，兼顾时延和吞吐，在 128K 长序列下能够保持 TTFT 低于 2 秒、TPOT 低于 30 毫秒的推理生成速度。

NPU DeepSeek-V3.2-Exp 推理优化实践：

昇腾针对 DeepSeek-V3.2-Exp 架构中两个全新的算子：Lightning Indexer (LI) 以及 Sparse Flash Attention (SFA)，针对性地进行算子 Tiling 设计、Cube 核与 Vector 核间的流水优化、计算流程的实现优化等，模型和融合 Kernel 均已开源。

NPU DeepSeek-V3.2-Exp Ascend C 融合算子优化：

为进一步提高昇腾融合算子的编程易用性，昇腾 CANN 首次推出大融合算子的编程体系 PyPTO，旨在简化算子开发流程，同时保持高性能计算能力。该框架创新性地采用 PTO (Parallel Tensor / Tile Operation) 编程范式，以 Tensor 为基本数据表达方式，构建计算图，实现高效计算与优化。目前在昇腾上已经基于 PyPTO 完成 DeepSeek-V3.2-Exp 模型中 DeepSeek Indexer Attention 和 Lightning indexer 算子的开发实践，仅需几百行代码即可完成动态 Shape 算子编程和算子整网运行。

基于 PyPTO 的 Lightning Indexer 和 DeepSeek Indexer Attention 算子开发实践：

昇腾不仅提供了 DeepSeek-V3.2-Exp 的官方参考实践，也同步支持 vLLM 和 SGLang 等业界主流大模型推理框架部署，提供完整功能，能够让广泛的开发者在社区直接下载相关代码体验 DeepSeek-V3.2-Exp 模型，可以在昇腾实现融合算子、稀疏访存、多核并行计算等深度优化能力，并持续优化 DeepSeek-V3.2-Exp 在主流社区的推理性能。

大模型推理框架 vLLM 及昇腾实现：

大模型推理框架 SGLang 及昇腾实现：

TileLang 是由 Tile-AI 社区发起的 Tile-level 的类 Python 的 AI 编程语言（DSL）项目，在 Tile 粒度上进行编程和编译，实现模型算子和硬件的高效协同。昇腾已经实现 TileLang 的 Sparse Flash Attention 和 Lightning Indexer 算子开发，后续将支持更完备的 NPU 算子并提升性能和泛化性。

NPU DeepSeek-V3.2-Exp TileLang 算子开发实践：

TileLang-Ascend 开源社区：

昇腾凭借敏捷协同优化能力，0Day 高效完成 DeepSeek-V3.2-Exp 适配，不仅深度开放自研编程语言 AscendC 及 PyTorch 算子源码，也积极拥抱开源生态，同步实现 vLLM、SGLang 等主流框架的快速支持，并携手开源社区 Tile-AI 共同开源 NPU 编程项目 TileLang-Ascend。