为什么我还是无法理解transformer?

不要想的太过复杂,就只有随机数生成的三个矩阵,原始输入已经通过矩阵相乘关联在三个随机数矩阵中,再通过一些代数游戏得到每个token对于整体输入序列的注意力权重矩阵,再和另外一个随机数矩阵进行线性的代数变化即可。
反向传播更新的是这三个矩阵的权重,三个矩阵的维度设计也是为了符合线性代数的运算。
总之这个就是一个巧妙的线性代数游戏,没有什么复杂的逻辑问题。
。

不要想的太过复杂,就只有随机数生成的三个矩阵,原始输入已经通过矩阵相乘关联在三个随机数矩阵中,再通过一些代数游戏得到每个token对于整体输入序列的注意力权重矩阵,再和另外一个随机数矩阵进行线性的代数变化即可。
反向传播更新的是这三个矩阵的权重,三个矩阵的维度设计也是为了符合线性代数的运算。
总之这个就是一个巧妙的线性代数游戏,没有什么复杂的逻辑问题。
。


PS1是94年12月3日上市 PS2是2000年3月4日 P...
这个“结冰”,不是冰冻的冰,而是 冰棍的冰。 英文名叫 “I...
我把7年前的Thinkpad X1 安装Ubuntu 24用...
Electron既不是游戏引擎,也不是新时代,也不会带来变革...
王安者,京畿人也,家素显贵,父母乃礼部要员。 王安少小颇精灵...
1 见过发短***维权的,也见过发短***擦边的。 这是第...
最近提了离职,老板没批。 找我谈话。 我说:没买社保,自己...
因为 Bun 打的就是差异化的牌,选择 JSC 和 Zig ...
感谢大家的关注和支持!收到这么多鼓励的私信,真的让我受宠若惊...
大模型真是个好东西,我找到两份日本文部科学省“疑似”关于这个...
