question about learning rate #3

HiXiaochen · 2021-09-16T09:26:17Z

In 《attention is all you need》，lrate in noam decay they used is formulated as：
"lrate = d−0.5 · min(step_num−0.5, step_num · warmup_steps−1.5)"
But in your code，I found there is an original_lr which is 0.05：
self._set_rate(
self.original_lr *
( self.model_size ** -0.5 * min(self._step ** (-0.5),
self._step * self.warmup_steps**(-1.5))))
Why do we need to add this term?

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

question about learning rate #3

question about learning rate #3

HiXiaochen commented Sep 16, 2021

question about learning rate #3

question about learning rate #3

Comments

HiXiaochen commented Sep 16, 2021