为什么我还是无法理解transformer?

不要想的太过复杂,就只有随机数生成的三个矩阵,原始输入已经通过矩阵相乘关联在三个随机数矩阵中,再通过一些代数游戏得到每个token对于整体输入序列的注意力权重矩阵,再和另外一个随机数矩阵进行线性的代数变化即可。
反向传播更新的是这三个矩阵的权重,三个矩阵的维度设计也是为了符合线性代数的运算。
总之这个就是一个巧妙的线性代数游戏,没有什么复杂的逻辑问题。
。

不要想的太过复杂,就只有随机数生成的三个矩阵,原始输入已经通过矩阵相乘关联在三个随机数矩阵中,再通过一些代数游戏得到每个token对于整体输入序列的注意力权重矩阵,再和另外一个随机数矩阵进行线性的代数变化即可。
反向传播更新的是这三个矩阵的权重,三个矩阵的维度设计也是为了符合线性代数的运算。
总之这个就是一个巧妙的线性代数游戏,没有什么复杂的逻辑问题。
。


「Python+量化」的实用技巧,估计很多粉丝都摩拳擦掌了,...
我把话放这,以菊花这家公司的尿性,永远不会有厂商真心实意为它...
我弟干理发店的,去年被我强按着把店给 0 元转让掉了。 他...
一定是后端好找工作。 哪怕后端团队都每天工作3小时摸鱼5小...
我去找陆川签字时,他正忙着在电话里安慰小青梅。 见我站在那...
现在我国为啥在国防不藏着掖着了?有什么武器亮什么武器 这次更...
初中的时候,班级的文艺委员坐在我前面。 她是班级里最好看的...
工作层面上,全是我一个人干。 1,有几个项目是直接用 ru...
DNS是一种域名转化为IP的服务,Cloudflare作为全...
rust 的 result 是枚举,只有2个答案,要么ok要...
