为什么我还是无法理解transformer?

不要想的太过复杂,就只有随机数生成的三个矩阵,原始输入已经通过矩阵相乘关联在三个随机数矩阵中,再通过一些代数游戏得到每个token对于整体输入序列的注意力权重矩阵,再和另外一个随机数矩阵进行线性的代数变化即可。
反向传播更新的是这三个矩阵的权重,三个矩阵的维度设计也是为了符合线性代数的运算。
总之这个就是一个巧妙的线性代数游戏,没有什么复杂的逻辑问题。
。

不要想的太过复杂,就只有随机数生成的三个矩阵,原始输入已经通过矩阵相乘关联在三个随机数矩阵中,再通过一些代数游戏得到每个token对于整体输入序列的注意力权重矩阵,再和另外一个随机数矩阵进行线性的代数变化即可。
反向传播更新的是这三个矩阵的权重,三个矩阵的维度设计也是为了符合线性代数的运算。
总之这个就是一个巧妙的线性代数游戏,没有什么复杂的逻辑问题。
。


最近开源了一套Ai***生成器系统,说系统可能不太准确因为他...
最近下载 Google Chrome 时,发现了一个小 bu...
感谢php,让我有时间第一时间玩黑神话悟空。 php不是适...
没设么错误 jb做swift根本打不过xcode 你在苹果的...
[***: DeepSeek: 我有必要放R2吗?] 来个速...
最近一段时间不要碰,茅台方寸大乱了,妄图操纵市场。 财联社...
公共DNS算电信业务,自建且不备案就是违规经营电信业务电信业...
这是一段职场之上,IT行业从业人员应该知道的PC发展历史:台...
不会是湖南交通工程学院的吧,答辩现场老师当场反驳了一个学生j...
乌龟。 我在马路上捡到过一只巴西龟,可能是别人丢掉得残废,...
