基于 BLOOM 模型训练奖励模型(RM): 复制代码
基于 GPT-J 模型训练奖励模型(RM): 复制代码 基于 BLOOM 模型进行强化学习优化训练(PPO): 复制代码 基于 GPT-J 模型进行强化学习优化训练(PPO): 复制代码 PPO 单测 如果您想跳过 有监督微调(SFT)与 奖励模型训练(RM)两个步骤,只单独测试 PPO 模块的性能,可以运行如下指令单测 PPO: 复制代码 开源生态——构想和未来 在 PAI-Megatron-Patch 的开发过程中,我们围绕中文大模型训练加速落地沉淀了以下几个方面的内容:
后续在 PAI-Megatron-Patch 中还会陆续放出更多高质量的大模型和最佳实践。此外,在中长期,我们在 Megatron 版的 Lora 流程以及 Transformer Engine 方向上会持续投入精力,也欢迎各种维度的反馈和改进建议以及技术讨论,同时我们十分欢迎和期待对开源社区建设感兴趣的同行一起参与共建,钉钉群号是 29605038042。 参考文献 [1]. Attention Is All You Need [2]. Megatron-LM: Training Multi-Billion Parameter Language Models Using Model Parallelism [3]. Reducing Activation Recomputation in Large Transformer Models [4]. FP8 Formats for Deep Learning [5]. ZeRO: Memory Optimizations Toward Training Trillion Parameter Models [6]. LLaMA: Open and Efficient Foundation Language Models [7]. Llama 2: Open Foundation and Fine-Tuned Chat Models [8]. Benchmarking Large Language Models on NVIDIA H100 GPUs with CoreWeave |