From 1bbcba339852746a4c6427a25e3f1bed20de4a10 Mon Sep 17 00:00:00 2001
From: karminski <code.karminski@outlook.com>
Date: Sun, 26 Jan 2025 23:31:59 +0800
Subject: [PATCH] ADD more info for mixed precision training

---
 .../how-to-optimize-transformer.md                            | 4 ++--
 1 file changed, 2 insertions(+), 2 deletions(-)

diff --git a/20250127-how-to-optimize-transformer/how-to-optimize-transformer.md b/20250127-how-to-optimize-transformer/how-to-optimize-transformer.md
index d73e890..99f31f4 100644
--- a/20250127-how-to-optimize-transformer/how-to-optimize-transformer.md
+++ b/20250127-how-to-optimize-transformer/how-to-optimize-transformer.md
@@ -5,7 +5,7 @@ by @karminski-牙医
 
 ![](./assets/images/mixed-precision-training.png)
 
-目前使用采用 Transformer 架构的模型, 都使用了一些优化方案来达到更好的效果或更高的性能, 所以我整理了常见的优化方案 (包括训练和推理), 后续会详细讲解每个优化方案的技术细节.
+目前使用 Transformer 架构的模型, 都使用了一些优化方案来达到更好的效果或更高的性能, 所以我整理了常见的优化方案 (包括训练和推理), 后续会详细讲解每个优化方案的技术细节.
 
 ### **注意力机制优化**
 
@@ -74,7 +74,7 @@ by @karminski-牙医
 
 - **混合精度训练**
   - FP16/BF16 混合精度训练广泛应用于大模型训练
-  - FP8 目前主要用于推理阶段（如 NVIDIA H100）
+  - FP8 目前主要用于推理阶段（如 NVIDIA H100）, 但 DeepSeek-V3 使用了 FP8 训练, 带来了巨大的成本优势
   - 大多数现代大模型使用 BF16 训练
 
 - **梯度检查点**