所有分类
  • 所有分类
  • 未分类

阿里云PAI-灵骏大模型训练工具Pai-Megatron-Patch正式开源!

🆕最新资讯🆕
阿里云机器学习平台PAI开源了一款名为Pai-Megatron-Patch的大模型训练工具。这个工具旨在帮助大模型开发者有效地进行大语言模型的高效分布式训练、有监督指令微调以及模型离线推理验证等。Pai-Megatron-Patch支持多款热门大模型,提供了丰富且简单易用的使用示例和工具集,方便用户快速上手大模型训练。该工具还提供了模型权重互转转换和Flash Attention 2.0、Transformer Engine模式下的FP8训练加速等特性。Pai-Megatron-Patch的设计理念是不对Megatron-LM的源码进行侵入式修改,通过以patch补丁的方式构建LLM训练链路,实现了与Megatron-LM的解耦合。这样解耦合的好处是用户可以享受Megatron-LM的升级而不影响LLM的最佳实践体验。Pai-Megatron-Patch还提供了模型库、分词器、模型转换、强化学习等关键要素,方便用户构建LLM训练。同时,该工具支持模型权重在Huggingface和Megatron之间的双向转换,方便用户加载和评估/推理模型。具体使用流程请参考阿里云灵骏产品的使用说明。关键技术方面,Pai-Megatron-Patch通过算子拆分、流水并行、序列并行、Zero显存优化、BF16混合精度、梯度检查点等训练加速技术,提升了模型训练吞吐速度,并保证了模型的可靠性。此外,Megatron版的transformer实现方式提供了灵活的GPT模式设置,让用户能够轻松实现不同种类的模型。
来源:https://juejin.cn/ai

原文链接:https://aixinjiyuan.com/923.html,转载请注明出处~~~
0
广告位招租

评论0

请先
暂时无公告
显示验证码
没有账号?注册  忘记密码?