We read every piece of feedback, and take your input very seriously.
To see all available qualifiers, see our documentation.
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
Hi, @Yonghongwei
在实例分割里面是有FC层作为分类,所以应该使用Adam_GC, 但是我使用在语义分割模型中,是没有FC层的,所以我应该使用Adam_GCC, 我在语义分割模型里面加了一些 Attention模块后,里面带有一些nn.Linear()层,我现在应该使用_GCC or _GC?
Adam_GC
Adam_GCC
nn.Linear()
_GCC
_GC
感谢回答!
The text was updated successfully, but these errors were encountered:
我建议你都可以试一下,对attention这块的FC我们还没有测。不过我觉得应该也是会有一定效果的。
对于Adam来讲,GC可以放在前面也可以放在后面,你都可以试一下,参考我们最新算法的代码: https://github.com/Yonghongwei/Advanced-optimizer-with-Gradient-Centralization
Sorry, something went wrong.
谢谢作者亲答。 我还有一个疑问就是,你说的GC在前面和后面的区别在于?
对于SGD来讲,放在前面和后面是等价的。 但是对于自适应学习速率的方法,放在前面和后面就不是等价的了。 这点文章里没说的很清楚。放在后面可以保证每次更新都满足文章中所说的weight在同一个超平面上。放在 前面的话,只能有梯度方面的优势,但是weight更新后就不在我们希望的超平面上了。我们实际中发现放在后面有时候 会更好一些,你可以在你的问题上试试。
No branches or pull requests
Hi,
@Yonghongwei
在实例分割里面是有FC层作为分类,所以应该使用
Adam_GC
,但是我使用在语义分割模型中,是没有FC层的,所以我应该使用
Adam_GCC
,我在语义分割模型里面加了一些 Attention模块后,里面带有一些
nn.Linear()
层,我现在应该使用_GCC
or_GC
?感谢回答!
The text was updated successfully, but these errors were encountered: