搜索
中关村商情网 首页 IT业界 云计算 查看内容

阿里云PAI-灵骏大模型训练工具Pai-Megatron-Patch正式开源

2023-9-15 18:04| 发布者: admin| 查看: 8932| 评论: 0

摘要: 作者:李鹏,王明,施晨,黄俊 导读 随着深度学习大语言模型的不断发展,其模型结构和量级在快速演化,依托大模型技术的应用更是层出不穷。对于广大开发者来说不仅要考虑如何在复杂多变的场景下有效的将大模型消耗 ...


基于 BLOOM 模型训练奖励模型(RM):


cd examples/summarize_rlhf/reward_model/ && deepspeed train_reward_model_bloom.py
复制代码

 

基于 GPT-J 模型训练奖励模型(RM):


cd examples/summarize_rlhf/reward_model/ && deepspeed train_reward_model_gptj.py
复制代码


基于 BLOOM 模型进行强化学习优化训练(PPO):


cd examples/summarize_rlhf/ && accelerate launch --config_file configs/default_accelerate_config.yaml trlx_bloom_rlhf.py
复制代码


基于 GPT-J 模型进行强化学习优化训练(PPO):


cd examples/summarize_rlhf/ && accelerate launch --config_file configs/default_accelerate_config.yaml trlx_gptj_text_summarization.py
复制代码


PPO 单测


如果您想跳过 有监督微调(SFT)与 奖励模型训练(RM)两个步骤,只单独测试 PPO 模块的性能,可以运行如下指令单测 PPO:


cd examples/summarize_rlhf/ && accelerate launch --config_file configs/default_accelerate_config.yaml trlx_bloom_rlhf_test.py
复制代码


 开源生态——构想和未来

在 PAI-Megatron-Patch 的开发过程中,我们围绕中文大模型训练加速落地沉淀了以下几个方面的内容:

 

  • Huggingface 的模型权重无损转换成 Megatron 或者 Transformer Engine 可读的模型权重。

  • H800 集群开启 FP8 混合精度训练确保收敛。

  • LLM 大模型在 PAI 灵骏智算平台上的最佳实践。

  • 强化学习技术在 PAI 灵骏智算平台上的最佳实践。

 

后续在 PAI-Megatron-Patch 中还会陆续放出更多高质量的大模型和最佳实践。此外,在中长期,我们在 Megatron 版的 Lora 流程以及 Transformer Engine 方向上会持续投入精力,也欢迎各种维度的反馈和改进建议以及技术讨论,同时我们十分欢迎和期待对开源社区建设感兴趣的同行一起参与共建,钉钉群号是 29605038042

参考文献

[1]. Attention Is All You Need

[2]. Megatron-LM: Training Multi-Billion Parameter Language Models Using Model Parallelism

[3]. Reducing Activation Recomputation in Large Transformer Models

[4]. FP8 Formats for Deep Learning

[5]. ZeRO: Memory Optimizations Toward Training Trillion Parameter Models

[6]. LLaMA: Open and Efficient Foundation Language Models

[7]. Llama 2: Open Foundation and Fine-Tuned Chat Models

[8]. Benchmarking Large Language Models on NVIDIA H100 GPUs with CoreWeave

1234567

鲜花

握手

雷人

路过

鸡蛋

最新评论

返回顶部