首页 景点排名文章正文

华为昇腾 0Day 支持 DeepSeek-V3.2-Exp

景点排名 2025年09月29日 20:45 1 aa

IT之家 9 月 29 日消息,今晚,DeepSeek-V3.2-Exp 发布并开源,引入稀疏 Attention 架构。华为宣布昇腾已快速基于 vLLM/SGLang 等推理框架完成适配部署,实现 DeepSeek-V3.2-Exp 0day 支持,并面向开发者开源所有推理代码和算子实现。

IT之家从官方介绍获悉,昇腾在 DeepSeek-V3.2-Exp 一发布开源即实现了 DeepSeek-V3.2-Exp BF16 模型部署,并在 CANN 平台上完成对应的优化适配,整体部署策略沿用 DeepSeek 的大 EP 并行方案,针对稀疏 DSA 结构,叠加实现长序列亲和的 CP 并行策略,兼顾时延和吞吐,在 128K 长序列下能够保持 TTFT 低于 2 秒、TPOT 低于 30 毫秒的推理生成速度。

NPU DeepSeek-V3.2-Exp 推理优化实践:

昇腾针对 DeepSeek-V3.2-Exp 架构中两个全新的算子:Lightning Indexer (LI) 以及 Sparse Flash Attention (SFA),针对性地进行算子 Tiling 设计、Cube 核与 Vector 核间的流水优化、计算流程的实现优化等,模型和融合 Kernel 均已开源。

NPU DeepSeek-V3.2-Exp Ascend C 融合算子优化:

为进一步提高昇腾融合算子的编程易用性,昇腾 CANN 首次推出大融合算子的编程体系 PyPTO,旨在简化算子开发流程,同时保持高性能计算能力。该框架创新性地采用 PTO (Parallel Tensor / Tile Operation) 编程范式,以 Tensor 为基本数据表达方式,构建计算图,实现高效计算与优化。目前在昇腾上已经基于 PyPTO 完成 DeepSeek-V3.2-Exp 模型中 DeepSeek Indexer Attention 和 Lightning indexer 算子的开发实践,仅需几百行代码即可完成动态 Shape 算子编程和算子整网运行。

基于 PyPTO 的 Lightning Indexer 和 DeepSeek Indexer Attention 算子开发实践:

昇腾不仅提供了 DeepSeek-V3.2-Exp 的官方参考实践,也同步支持 vLLM 和 SGLang 等业界主流大模型推理框架部署,提供完整功能,能够让广泛的开发者在社区直接下载相关代码体验 DeepSeek-V3.2-Exp 模型,可以在昇腾实现融合算子、稀疏访存、多核并行计算等深度优化能力,并持续优化 DeepSeek-V3.2-Exp 在主流社区的推理性能。

大模型推理框架 vLLM 及昇腾实现:

大模型推理框架 SGLang 及昇腾实现:

TileLang 是由 Tile-AI 社区发起的 Tile-level 的类 Python 的 AI 编程语言(DSL)项目,在 Tile 粒度上进行编程和编译,实现模型算子和硬件的高效协同。昇腾已经实现 TileLang 的 Sparse Flash Attention 和 Lightning Indexer 算子开发,后续将支持更完备的 NPU 算子并提升性能和泛化性。

NPU DeepSeek-V3.2-Exp TileLang 算子开发实践:

TileLang-Ascend 开源社区:

昇腾凭借敏捷协同优化能力,0Day 高效完成 DeepSeek-V3.2-Exp 适配,不仅深度开放自研编程语言 AscendC 及 PyTorch 算子源码,也积极拥抱开源生态,同步实现 vLLM、SGLang 等主流框架的快速支持,并携手开源社区 Tile-AI 共同开源 NPU 编程项目 TileLang-Ascend。

发表评论

长征号 Copyright © 2013-2024 长征号. All Rights Reserved.  sitemap