From 1bbcba339852746a4c6427a25e3f1bed20de4a10 Mon Sep 17 00:00:00 2001 From: karminski Date: Sun, 26 Jan 2025 23:31:59 +0800 Subject: [PATCH] ADD more info for mixed precision training --- .../how-to-optimize-transformer.md | 4 ++-- 1 file changed, 2 insertions(+), 2 deletions(-) diff --git a/20250127-how-to-optimize-transformer/how-to-optimize-transformer.md b/20250127-how-to-optimize-transformer/how-to-optimize-transformer.md index d73e890..99f31f4 100644 --- a/20250127-how-to-optimize-transformer/how-to-optimize-transformer.md +++ b/20250127-how-to-optimize-transformer/how-to-optimize-transformer.md @@ -5,7 +5,7 @@ by @karminski-牙医 ![](./assets/images/mixed-precision-training.png) -目前使用采用 Transformer 架构的模型, 都使用了一些优化方案来达到更好的效果或更高的性能, 所以我整理了常见的优化方案 (包括训练和推理), 后续会详细讲解每个优化方案的技术细节. +目前使用 Transformer 架构的模型, 都使用了一些优化方案来达到更好的效果或更高的性能, 所以我整理了常见的优化方案 (包括训练和推理), 后续会详细讲解每个优化方案的技术细节. ### **注意力机制优化** @@ -74,7 +74,7 @@ by @karminski-牙医 - **混合精度训练** - FP16/BF16 混合精度训练广泛应用于大模型训练 - - FP8 目前主要用于推理阶段(如 NVIDIA H100) + - FP8 目前主要用于推理阶段(如 NVIDIA H100), 但 DeepSeek-V3 使用了 FP8 训练, 带来了巨大的成本优势 - 大多数现代大模型使用 BF16 训练 - **梯度检查点**