1 min read 10 words Updated Apr 25, 2026 Created May 03, 2026

核心结构 Attention

结构就这样了。

FeedFoward 层来一个全连接层,重新映射一下,比如到潜空间或者到 Logits。
然后放入 Decoder 中,预测下一个词。重复该步骤即可。