将softmax注意力替换为线性注意力后，模型训练出现Nan #32

wzh326 · 2024-12-22T11:08:12Z

将softmax注意力替换为线性注意力后，模型训练出现Nan，发现如果不使用值域在1以内的激活函数的话都会出现这种情况。请问这个问题有人遇到过么？将softmax注意力替换为线性注意力的过程中是如何解决这类问题的呢？

jiaobin · 2024-12-23T08:46:58Z

将softmax注意力替换为线性注意力后，模型训练出现Nan，发现如果不使用值域在1以内的激活函数的话都会出现这种情况。请问这个问题有人遇到过么？将softmax注意力替换为线性注意力的过程中是如何解决这类问题的呢？

遇到同样的问题，请问你解决了吗

tian-qing001 · 2024-12-27T11:05:41Z

Hi @jiaobin @wzh326.
I would like to know if you are using FLatten or the vanilla linear attention. Could you share your code and settings, which would help address the problem?

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

将softmax注意力替换为线性注意力后，模型训练出现Nan #32

将softmax注意力替换为线性注意力后，模型训练出现Nan #32

wzh326 commented Dec 22, 2024

jiaobin commented Dec 23, 2024

tian-qing001 commented Dec 27, 2024

将softmax注意力替换为线性注意力后，模型训练出现Nan #32

将softmax注意力替换为线性注意力后，模型训练出现Nan #32

Comments

wzh326 commented Dec 22, 2024

jiaobin commented Dec 23, 2024

tian-qing001 commented Dec 27, 2024