1

Top 代写 Secrets

News Discuss 
这个区别在 DP 优化器中也存在。同样是 Adam,用 decoupled fat decay 的话, 缩放 R 不影响 weight decay 的大小,但是用普通的 excess weight decay 的话,放大 R 两倍等价于缩小两倍的 fat decay。 事实上 DP for every-sample gradient clipping 这个方向主要就三种 clipping functions, 除了 Abadi's clipping 以外的两种都是我提出的,一个是 world wide clipping,还有一个就是这篇 automatic clipping。而在... https://donovanfx61q.suomiblog.com/top-secrets-28882835

Comments

    No HTML

    HTML is disabled


Who Upvoted this Story