发布时间:2025-02-28 09:13:16 作者:小编
在人工智能领域,摩尔线程再次展现了其强大的技术实力与创新精神。近日,在DeepSeek开源周的重要时刻,摩尔线程宣布已成功支持DeepSeek开源通信库DeepEP和并行算法DualPipe,并发布了相关的开源代码仓库:MT-DeepEP和MT-DualPipe。这一重大突破,无疑为AI大模型的训练与推理效率带来了全新的提升。
DeepEP:优化通信,加速大模型训练
DeepEP,作为专为MoE(混合专家)模型设计和优化的开源EP(expert parallelism,专家并行)通信库,其主要应用场景在于大模型的集群训练。通过深度优化通信信道的使用率,DeepEP显著提升了训练的效率和速度。摩尔线程凭借其MUSA Compute Capability 3.1全功能GPU的卓越性能,成功适配了DeepEP,并为其增添了多项先进特性:
高效优化的All-to-All通信:支持dispatch & combine,确保数据传输的高效与稳定。
节点内通信支持:MTLink + GPU(MUSA Compute Capability 3.1)的完美结合,进一步提升了通信效率。
高吞吐量计算核心:在训练及推理预填充阶段,提供强大的计算能力。
低延迟计算核心:推理解码阶段,确保快速响应和实时处理。
原生支持FP8数据分发:满足更高效的数据处理需求。
灵活控制GPU资源:实现计算与通信的高效重叠,优化整体性能。
DualPipe:双向流水线并行,减少设备空闲
DualPipe,作为DeepSeek-V3提出的创新并行算法,通过前向计算与后向计算阶段的计算与通信完全重叠,成功减少了“流水线气泡”,即设备空闲等待的时间。摩尔线程依托其深度学习框架Torch-MUSA(已开源)和MUSA软件栈的全方位兼容性,成功实现了对DualPipe算法的支持。
目前,MT-DualPipe已经能够完整接入摩尔线程的MT-Megatron框架和即将开源的MT-TransformerEngine框架,实现DeepSeek V3训练流程的完整复现。同时,MT-DualPipe与MT-Megatron的结合,更是实现了DeepSeek V3模型MLP-FFN分离以及DW-DG分离,进一步降低了气泡占比,优化了通信效率。此外,MT-DualPipe与MT-TranformerEngine和MT-DeepEP的协同工作,利用MT-DeepEP和异步通信引擎,实现了更高效的通信掩盖,有效降低了对计算资源的损耗。
摩尔线程:持续创新,引领未来
摩尔线程的这一系列技术创新,不仅展示了其在AI领域的技术实力,更为整个行业的发展注入了新的活力。随着MT-DeepEP和MT-DualPipe的开源发布,摩尔线程将继续与全球开发者携手共进,共同推动AI技术的不断进步和应用拓展。未来,摩尔线程将继续秉承创新精神,致力于为用户提供更高效、更智能的解决方案,引领AI技术的未来发展。
联系我们
contact us
地址:辽宁省沈阳市沈河区步阳国际B1座927
电话:15566248489
点击图标在线留言,我们会及时回复