分享微软宣布开源deepspeed chat 训练框架

wiwjxx · 2023/04/15

DeepSpeed Chat: 一键式 RLHF 训练，让你的类 ChatGPT 千亿大模型提速省钱 15 倍
官方介绍文档：

DeepSpeed/blogs/deepspeed-chat/chinese/README.md at master · deepspeedai/DeepSpeed

DeepSpeed is a deep learning optimization library that makes distributed training and inference easy, efficient, and effective. - deepspeedai/DeepSpeed

github.com

DeepSpeed 是一种开源的 PyTorch 训练优化框架，开发者是深圳微软亚洲研究院和微软 Redmond。DeepSpeed 主要通过以下 3 个技术来加速和规模化深度学习模型的训练:
1. 分层参数：通过分片和可自定义的通信格式在 GPU 之间分发参数，减少 GPU 间参数同步的开销，加速训练过程。
2. 梯度累加：通过梯度累加的方式减少反向传播中所有的 reduce-scatter 操作，降低通信开销，提高训练速度。
3. ZeRO 优化：通过对参数、梯度和优化程序状态的空间重新利用，最小化 GPU 上的显存使用，使得模型能以最大限度地利用 GPU 的计算资源。
DeepSpeed Chat 是 DeepSpeed 项目推出的一个开源聊天机器人训练框架。它具有以下主要特点:
1. 基于 transformer 架构，采用 GPT 模型进行训练。
2. 训练数据采用多种开源数据集，如 OpenSubtitles,BookCorpus,Wikipedia 等。
3. 实现了梯度累加和 ZeRO 优化技术，使得模型训练极具规模，当前 ChatGPT-13B 采用的 GPT-3 模型规模达到 13 亿参数。
4. 支持多种训练策略，如顺序训练、微调、联合训练、增量训练等，满足不同训练需求。
5. 训练配置灵活，支持多 GPU、混合精度等，方便用户实现超大规模模型训练。
6. 训练过程可视化，使用 Tensorboard 进行详细监控。
总体来说，DeepSpeed Chat 是一个功能强大的开源聊天机器人训练框架，为实现超大规模 lease pre-trained language model 提供了很好的支持。

搜索

搜索

分享微软宣布开源deepspeed chat 训练框架

wiwjxx

请叫我红领巾

DeepSpeed/blogs/deepspeed-chat/chinese/README.md at master · deepspeedai/DeepSpeed

更多选项

相似主题

分享 微软宣布开源deepspeed chat 训练框架

wiwjxx

请叫我红领巾

DeepSpeed/blogs/deepspeed-chat/chinese/README.md at master · deepspeedai/DeepSpeed

相似主题

分享微软宣布开源deepspeed chat 训练框架