为什么我还是无法理解transformer?

2025-06-25 16:15:13

不要想的太过复杂,就只有随机数生成的三个矩阵,原始输入已经通过矩阵相乘关联在三个随机数矩阵中,再通过一些代数游戏得到每个token对于整体输入序列的注意力权重矩阵,再和另外一个随机数矩阵进行线性的代数变化即可。

反向传播更新的是这三个矩阵的权重,三个矩阵的维度设计也是为了符合线性代数的运算。

总之这个就是一个巧妙的线性代数游戏,没有什么复杂的逻辑问题。

为什么我还是无法理解transformer?
广告位810*200
相关阅读
老婆生了孩子,我对她完全没有感觉怎么办?

老婆生了孩子,我对她完全没有感觉怎么办?

我生了两个娃,我老公还是很喜欢我,说我的身材很火辣,很***...

2025-06-22
什么是最好的编程用显示器?

什么是最好的编程用显示器?

最好的编程用显示器就是那种 屏幕尺寸特小 分辨率特低 刷新还...

2025-06-22
为什么会有 U 盘独个文件不可以超过 4GB 这种设定?

为什么会有 U 盘独个文件不可以超过 4GB 这种设定?

厂家也没办法,如果出厂格式化成NTFS,会有小白问:为什么这...

2025-06-22
国家为什么特别青睐雷军?

国家为什么特别青睐雷军?

我回答一个真正被国家青睐的人。 单位的电脑很破旧了,系统还...

2025-06-22
一个练过功夫的姑娘能打过一个没练过的男人吗?

一个练过功夫的姑娘能打过一个没练过的男人吗?

这是我女朋友,就随便练练 ...

2025-06-22