聚合国内IT技术精华文章,分享IT技术精华,帮助IT从业人士成长

通俗理解Megatron-DeepSpeed:千亿参数模型BLOOM背后的技术

2023-08-24 17:32 浏览: 529765 次 我要评论(0 条) 字号:

BLOOM 的模型架构与GPT3非常相似,只是增加了一些改进,本文稍后将对此进行讨论。该模型是在Jean Zay上训练的,Jean Zay 是由 GENCI 管理的法国政府资助的超级计算机,安装在法国国家科学研究中心 (CNRS) 的国家计算中心IDRIS。训练所需的算力由 GENCI 慷慨捐赠给本项目 (捐赠号 2021-A0101012475)。GPU: 384 张 NVIDIA A100 80GB GPU (48 个节点) + 32 张备用 GPU。


网友评论已有0条评论, 我也要评论

发表评论

*

* (保密)

Ctrl+Enter 快捷回复