中国网10月13日讯 10月13日,为期4天的第二十一届中国国际消防设备技术交流展览会(以下简称“中国国际消防展”) 在北京市中国国际展览中心(顺义馆...
2025-10-13 0
来源:环球网
【环球网科技综合报道】10月13日,蚂蚁集团对外宣布正式开源业界首个高性能扩散语言模型推理框架dInfer。
据介绍,在基准测试中,dInfer将扩散语言模型的推理速度相比于英伟达扩散模型框架Fast-dLLM提升了10.7倍;在代码生成任务HumanEval上,dInfer在单批次推理中创造了1011Tokens/秒的速度,首次在开源社区中实现扩散语言模型的单批次推理速度显著超越自回归模型。dInfer的工作表明,扩散语言模型具备显著的效率潜力,可以通过系统性的创新工程兑现,为通往AGI的架构路径提供极具竞争力的选项。
扩散语言模型,作为一种全新的范式将文本生成视为一个“从随机噪声中逐步恢复完整序列”的去噪过程,具有高度并行、全局视野、结构灵活三大优势。凭借这些优势,以蚂蚁集团和人大发布的LLaDA-MoE为代表的模型已在多个基准测试中,展现出与顶尖AR模型相媲美的准确性 。事实上,dLLM的高效推理面临计算成本高、KV缓存失效、并行解码三大挑战。这些瓶颈使得扩散语言模型的推理速度一直不尽人意,如何突破瓶颈释放扩散语言模型在推理效率上的潜能,成为整个领域亟待解决的难题。
dInfer是一款专为扩散语言模型设计的、算法与系统深度协同的高性能推理框架 ,可支持多种扩散语言模型,包括 LLaDA、 LLaDA-MoE、LLaDA-MoE-TD 等。
dInfer包含四大核心模块:模型接入(Model)、KV缓存管理器(KV-Cache Manager),扩散迭代管理器(Iteration Manager),和解码策略(Decoder)。这种可插拔的架构,允许开发者像搭乐高一样,进一步组合和探索不同模块的优化策略,并在统一的平台上进行标准化评测 。更重要的是,dInfer针对上述三大挑战,在每个模块中都集成了针对性的解决方案。
(图说:dInfer的架构)
在配备8块NVIDIA H800 GPU的节点上,dInfer的性能表现令人瞩目:在与先前的dLLM推理方案Fast-dLLM的对比中,dInfer在模型效果持平的情况下,平均推理速度(avg TPS)实现了10.7倍的巨大提升(681 vs 63.6) ;在代码生成任务HumanEval上,dInfer在单批次推理中创造了1011 tokens/秒的速度 ;与在业界顶尖的推理服务框架vLLM上运行的、参数量和性能相当的AR模型Qwen2.5-3B相比,dInfer的平均推理速度是其2.5倍(681 vs 277) 。
蚂蚁集团介绍,dInfer连接了前沿研究与产业落地,标志着扩散语言模型从“理论可行”迈向“实践高效”的关键一步。此次开预案,也是诚邀全球的开发者与研究者共同探索扩散语言模型的巨大潜能,构建更加高效、开放的AI新生态。(勃潺)
相关文章
中国网10月13日讯 10月13日,为期4天的第二十一届中国国际消防设备技术交流展览会(以下简称“中国国际消防展”) 在北京市中国国际展览中心(顺义馆...
2025-10-13 0
北京商报讯(记者 魏蔚)10月13日,北京商报记者获悉,B站正式启动“双11”大促。今年“双11”,B站与阿里、京东达成了更深度的数据打通,为在B站种...
2025-10-13 0
来源:环球网 【环球网科技综合报道】10月13日,蚂蚁集团对外宣布正式开源业界首个高性能扩散语言模型推理框架dInfer。据介绍,在基准测试中,dIn...
2025-10-13 0
在10月13日下午举行的2025上海国际生物医药产业周开幕式上,(上海)生物医药技术性贸易措施研究评议基地获批成立,成为WTO框架下全国唯一生物医药领...
2025-10-13 0
海报新闻记者 吴杰 报道10月11日,海尔集团公司(以下简称“海尔集团”)与蚂蚁科技集团股份有限公司(以下简称“蚂蚁集团”)在杭州蚂蚁集团总部举行全面...
2025-10-13 0
国际商报记者 董鑫10月2日至5日,2025年CICF中国国际漫画节动漫游戏展与AGF亚洲游戏博览会在广州举办。这一行业盛会不仅是动漫游戏爱好者的狂欢...
2025-10-13 0
2025年10月10日,vivo开发者大会在深圳国际会展中心隆重举办。其中,信息无障碍分会场作为极具人文关怀的分论坛,以其务实的生态共建视角,引发业界...
2025-10-13 0
本报讯 (记者贾丽)10月11日,据北京合康新能科技股份有限公司(以下简称“合康新能”)官方消息,合康新能在10月份初获“中核集团福清核电站系列高压变...
2025-10-13 1
发表评论