- 待更新...
希望这个系列能够给大家、朋友们带来一些些帮助,也希望自己能够继续坚持完成所有内容哈!
- 待更新...
PPT
和字幕
需要到 Github 下载,网页课程版链接会失效哦~建议优先下载 PDF 版本,PPT 版本会因为字体缺失等原因导致版本很丑哦~
《分布式集群》随着AI集群的出现,越来越多的网络模型运行在集群上面,但是AI集群如何管理?如何通信?如何协同工作?AI框架如何支持分布式功能都需要我们去了解,才能更好地利用AI集群算力。
分类 | 名称 | 内容 |
---|---|---|
分布式集群 | 01 基本介绍 | PPT, 视频 |
分布式集群 | 02 AI集群服务器架构 | PPT, 视频 |
分布式集群 | 03 AI集群软硬件通信 | PPT, 视频 |
分布式集群 | 04 集合通信原语 | PPT, 视频 |
分布式算法 | 05 AI框架分布式功能 | PPT, 视频 |
《分布式算法》随着大模型的出现,越来越多的大模型算法涌现,特别是Transformer和MOE结构,引爆了千亿乃至万亿规模的大模型,新的AI算法奇点来了,AI工程师也需要了解最新的动态。
分类 | 名称 | 内容 |
---|---|---|
分布式算法 | 06 大模型训练的挑战 | PPT, 视频 |
分布式算法 | 07 算法:大模型算法结构 | PPT, 视频 |
分布式算法 | 08 算法:亿级规模SOTA大模型 | PPT, 视频 |
《分布式并行》可是在AI集群,想要训练起千亿乃至万亿规模的大模型,谈何容易,于是出现了不同类型的分布式并行策略,目的是解决性能墙、内存墙、调优墙等并行问题,使的开发者能够真正让AI算法快速在AI集群上执行。
分类 | 名称 | 内容 |
---|---|---|
分布式并行 | 01 基本介绍 | PPT, 视频 |
分布式并行 | 02 数据并行 | PPT, 视频 |
分布式并行 | 03 模型并行之张量并行 | PPT, 视频 |
分布式并行 | 04 MindSpore张量并行 | PPT, 视频 |
分布式并行 | 05 模型并行之流水并行 | PPT, 视频 |
分布式并行 | 06 混合并行 | PPT, 视频 |
分布式汇总 | 07 分布式训练总结 | PPT, 视频 |