为什么我还是无法理解transformer?

不要想的太过复杂,就只有随机数生成的三个矩阵,原始输入已经通过矩阵相乘关联在三个随机数矩阵中,再通过一些代数游戏得到每个token对于整体输入序列的注意力权重矩阵,再和另外一个随机数矩阵进行线性的代数变化即可。
反向传播更新的是这三个矩阵的权重,三个矩阵的维度设计也是为了符合线性代数的运算。
总之这个就是一个巧妙的线性代数游戏,没有什么复杂的逻辑问题。
。

不要想的太过复杂,就只有随机数生成的三个矩阵,原始输入已经通过矩阵相乘关联在三个随机数矩阵中,再通过一些代数游戏得到每个token对于整体输入序列的注意力权重矩阵,再和另外一个随机数矩阵进行线性的代数变化即可。
反向传播更新的是这三个矩阵的权重,三个矩阵的维度设计也是为了符合线性代数的运算。
总之这个就是一个巧妙的线性代数游戏,没有什么复杂的逻辑问题。
。


看到大家都再说,我就说一个,我在医院上班,医院病历医嘱工作系...
说实话,这个问题挺多人好奇的,尤其是想进这行的朋友。 我是...
cloudflare 已经重写了,他们认为 NGINX 有一...
因为炮叔叔在网创圈,野路子比较多,这里就拿一些网创圈的案例来...
(最新补充20250614) 她们只是看着胸部较平,你不会是...
上次爬华山遇上一对夫妻,女的30出头,男的明显大些,女士穿白...
这是10年谷歌退出中国的影响延续。 我其实不愿意承认,一个...
洪峰18日早上过的,目前已经退了很多了。 嗯这次怀集洪水大...
结婚快二十年了,前几天老公很不情愿的出差了,因为这单生意不赚...
先说感染风险:没有感染风险其实不少医生也存在着恐艾(正常的,...
