现代 LLM 中的 Attention 变体可视化指南

Kyrie Chen 2026-03-22

本文翻译自 Sebastian Raschka 的文章 A Visual Guide to Attention Variants in Modern LLMs，原文发布于 2026 年 3 月 22 日。文中图片均引自原文及其参考资料，专业名词保留原文英文。

本文整理了近年来在主流开放权重模型中实际使用的各类 Attention 变体，既作为参考资料，也作为轻量级学习材料。

1. Multi-Head Attention（MHA）

Self-attention 让序列中每个 token 都能看到其他可见 token，为它们分配权重，并用这些权重构建新的上下文感知表示。

Multi-Head Attention（MHA）是标准 Transformer 版本：并行运行多个 self-attention head，每个 head 使用不同的可学习投影矩阵，最终将所有 head 的输出合并为一个更丰富的表示。

图 3：以 OLMo 2 为例展示使用 MHA 的架构示意图

典型使用模型：GPT-2、OLMo 2 7B、OLMo 3 7B

1.1 Attention 的历史背景

Attention 机制早于 Transformer 和 MHA 出现，最初应用于翻译任务的 encoder-decoder RNN。

在早期系统中，encoder RNN 逐 token 读入源句子，将其压缩为一系列 hidden state，最简单的情况下压缩为一个最终 state。然后 decoder RNN 需要从这个有限的摘要中生成目标句子。对于短句这样还行，但当下一个词所需的相关信息位于输入句子的其他位置时，瓶颈就显现了。

核心局限在于：hidden state 无法存储无限量的信息和上下文，有时候能直接回查完整输入序列会更有帮助。

下图的翻译示例展示了这种思路的局限性：即使很多局部词汇选择看起来合理，模型仍可能因为过于按词对词映射而错过句子级结构。图中的上半部分是一个刻意夸张的逐词翻译示例，用来说明问题；真实 RNN 不一定会如此机械，但在更长序列或需要检索更远信息时，单一 hidden state 的瓶颈仍会暴露出来。

图 4：即使很多词汇选择看起来合理，翻译也可能因为句子级结构而失败

图 5：Attention 通过让当前输出位置回查完整输入序列，打破了 RNN 的瓶颈

Transformer 保留了上述 Attention-RNN 的核心思想，但去除了循环结构。在经典论文 Attention Is All You Need 中，Attention 本身成为主要的序列处理机制（而不只是 RNN encoder-decoder 的一部分）。

在 Transformer 中，这个机制被称为 self-attention：序列中每个 token 对所有其他 token 计算权重，并用这些权重将来自其他 token 的信息混合到新表示中。Multi-head attention 就是将这一机制并行运行多次。

1.2 Masked Attention 矩阵

对于长度为 T 的序列，attention 需要为每个 token 生成一行权重，因此整体上得到一个 T × T 的矩阵。

每一行回答一个简单问题：在更新当前 token 时，每个可见 token 应该有多重要？在 decoder-only LLM 中，未来位置会被 mask 掉，因此矩阵右上角是灰色的。

Self-attention 的本质是在因果 mask 下学习这些 token-to-token 权重模式，并用它们构建上下文感知的 token 表示。

图 6：一个具体的 masked attention matrix，每一行属于一个 token，每个元素是注意力权重，未来 token 的位置被因果 mask 移除

1.3 Self-Attention 内部机制

Transformer 从输入 embedding X 计算 attention 矩阵 A，再用 A 生成变换后的输出 Z。

其中 Q、K、V 分别代表 queries、keys、values：

query 表示当前 token 在寻找什么
key 表示每个 token 提供了什么可供匹配的信息
value 是一旦 attention 权重计算完成后，被混合进输出的实际信息

计算步骤如下：

Wq、Wk、Wv 是将输入 embedding 投影到 Q、K、V 的权重矩阵
QKᵀ 产生原始的 token 间相关性得分
softmax 将这些得分转换为归一化的 attention 矩阵 A
将 A 作用于 V，得到输出矩阵 Z

注意 attention 矩阵不是手工编写的对象，它从 Q、K 和 softmax 中涌现出来。

图 7：完整的单 head 流程，从输入 embedding X 到归一化 attention 矩阵 A 和输出表示 Z

图 8：一个 attention head 就是一个完整机制，一组可学习投影产生一个 attention 矩阵和一个上下文感知输出流

1.4 从单 Head 到 Multi-Head Attention

一组 Wq/Wk/Wv 矩阵给我们一个 attention head，对应一个 attention 矩阵和一个输出矩阵 Z。

MHA 只是用不同的可学习投影矩阵，并行运行多个这样的 head。

这样做的好处是不同 head 可以专注于不同的 token 关系：一个 head 可能关注短距离局部依赖，另一个关注更宏观的语义联系，还有一个可能关注位置或句法结构。

图 9：MHA 保留了相同的 attention 机制，但并行重复多次，使模型能同时学习多种 token 间模式

2. Grouped-Query Attention（GQA）

GQA 是从标准 MHA 派生出来的 attention 变体，由 Joshua Ainslie 等人在 2023 年论文 GQA: Training Generalized Multi-Query Transformer Models from Multi-Head Checkpoints 中提出。

它不为每个 query head 单独分配 keys 和 values，而是让多个 query head 共享同一套 key-value 投影，从而在不大幅改变 decoder 结构的前提下，大幅降低 KV cache 的成本（主要是内存上的节省）。

图 10：GQA 保留了与 MHA 相同的整体 attention 模式，但通过让多个 query head 共享，折叠了 key-value head 的数量

典型使用模型：

Dense: Llama 3 8B、Qwen3 4B、Gemma 3 27B、Mistral Small 3.1 24B、SmolLM3 3B、Tiny Aya 3.35B
Sparse (MoE): Llama 4 Maverick、Qwen3 235B-A22B、Step 3.5 Flash 196B、Sarvam 30B

2.1 GQA 为何流行

标准 MHA 为每个 head 单独维护 keys 和 values，从建模角度更优，但在推理时需要在 KV cache 中保存所有这些状态，成本高昂。

GQA 保留较多的 query head，但减少 key-value head 的数量，让多个 query 共享它们。这降低了参数量和 KV cache 的访问流量，同时不像 MLA 那样需要复杂的实现改动。

在实践中，对于那些想要比 MHA 更便宜、但比 MLA 等压缩方案更简单实现的团队，GQA 是非常受欢迎的选择。

2.2 GQA 的内存节省效果

GQA 在 KV 存储上带来了显著节省：每层保留的 key-value head 越少，每个 token 需要缓存的状态就越少。这就是为什么随着序列长度增长，GQA 的优势越来越明显。

GQA 是一个连续谱：如果一路减少到只有一个共享 K/V 组，就进入了 Multi-Query Attention（MQA）的领域——成本更低，但建模质量可能下降更明显。通常甜蜜点在 MQA（1个共享组）和 MHA（K/V组数等于query数）之间，缓存节省显著但相对 MHA 的建模质量下降有限。

图 11：越低越好，随着 context window 增大，KV cache 节省效果越来越明显

2.3 GQA 在 2026 年仍然重要

MLA 等更先进的变体正在流行，因为它们能在相同 KV 效率水平下提供更好的建模性能（如 DeepSeek-V2 论文中的 ablation 研究所示），但实现与服务也更复杂。

GQA 之所以仍然有吸引力，是因为它鲁棒、易于实现，也更容易训练（hyperparameter tuning 的需求更少）。这也是为什么一些新发布的模型仍然选择坚守 GQA。Sarvam 是一个很好的对比案例：30B 版本使用 GQA，而 105B 版本切换到了 MLA。

原文还点名提到 MiniMax M2.5 与 Nanbeige 4.1，作为仍然坚持经典 GQA 而未叠加更多效率技巧的例子。

图 12：105B Sarvam（使用 MLA）、30B Sarvam（使用 GQA）与普通 MHA 的 KV cache 大小对比

3. Multi-Head Latent Attention（MLA）

MLA 的动机与 GQA 类似，都是为了减少 KV cache 的内存需求。区别在于：GQA 通过减少存储的 K/V 数量来缩小 cache，而 MLA 通过压缩存储的内容来缩小 cache。

图 13：与 GQA 不同，MLA 不通过分组 head 来降低 KV 成本，而是通过缓存压缩后的 latent 表示来实现

MLA 最初在 DeepSeek-V2 论文中提出，在 DeepSeek-V3 和 R1 之后成为 DeepSeek 时代的标志性设计。它比 GQA 实现更复杂、服务更困难，但随着模型规模和 context length 增大、cache 访问流量开始主导性能时，在相同内存压缩率下能保持更好的建模性能，因此越来越具有吸引力。

需要补充一点：原文在图 13 的图注中专门提醒，这张示意图为了简洁没有画出 query 侧的对应压缩/变换，实际 MLA 的改动并不只发生在缓存下来的 K/V 表示上。

典型使用模型：DeepSeek V3、Kimi K2、GLM-5、Ling 2.5、Mistral Large 3、Sarvam 105B

3.1 压缩而非共享

MLA 不像 MHA 和 GQA 那样缓存完整分辨率的 key 和 value tensor，而是存储一个 latent 表示，在需要时再重建可用状态。本质上，这是一种嵌入在 attention 内部的 cache 压缩策略。

图 14：随着 context length 增长，与缓存完整 K/V tensor 相比，缓存 latent 表示的节省效果变得非常显著

3.2 MLA 的 ablation 研究

DeepSeek-V2 论文提供了一些 ablation 实验：GQA 在建模性能上低于 MHA，而 MLA 保持得更好，仔细调优后甚至能超过 MHA。这比”它也节省内存”的说法更有说服力。

换句话说，MLA 之所以成为 DeepSeek 的首选 attention 机制，不仅是因为高效，还因为它在大规模场景下是一次保质的效率提升。（不过据同行反映，MLA 在特定规模才效果最好；对于 <100B 的小模型，GQA 似乎更容易调整和使用。）

图 15：GQA 在此低于 MHA，而 MLA 保持竞争力，甚至略微超越 MHA（数据来自 DeepSeek-V2）

图 16：GQA 和 MLA 从不同方向解决同一个瓶颈，权衡点在于实现简洁性与大模型建模性能之间

3.3 MLA 的扩散

DeepSeek V3/R1、V3.1 等将设计正常化后，MLA 开始出现在第二波架构中：Kimi K2 延续了 DeepSeek 方案并继续扩大规模；GLM-5 将 MLA 与 DeepSeek Sparse Attention 结合；Ling 2.5 将 MLA 与 linear-attention hybrid 配对；Sarvam 同时发布了两个版本——30B 使用 GQA，105B 切换到 MLA。

Sarvam 这组对比特别有价值：同一个团队实现了两种方案，并有意识地为不同规模选择了不同方案，这让 MLA 不再只是理论上的替代方案，而是模型家族随规模扩大后的具体升级路径。

4. Sliding Window Attention（SWA）

Sliding Window Attention 通过限制每个位置能 attend 到的历史 token 数量，降低长 context 推理的内存和计算成本。每个 token 只 attend 固定窗口内最近的若干 token，而非整个前缀。因为 attention 被限制在局部 token 邻域内，这种机制也常被称为 local attention。

部分架构将这些 local 层与偶尔的 global attention 层结合，使信息仍能在整个序列中传播。

图 17：概念转变很简单：普通 attention 是 global attention，SWA 是 local attention，SWA 将很多层变为 local attention 层

典型使用模型：Gemma 3 27B、OLMo 3 32B、Xiaomi MiMo-V2-Flash、Arcee Trinity、Step 3.5 Flash、Tiny Aya

4.1 以 Gemma 3 为参考

Gemma 3 是最清晰的近期 SWA 案例之一，因为它方便与 Gemma 2 对比。Gemma 2 已经使用了 local-to-global 层 1:1 比例、4096 token 窗口的 hybrid attention 设置；Gemma 3 将其推进到 5:1 比例，并将窗口缩小到 1024。

关键发现不在于 local attention 更便宜（这早已人尽皆知），更有趣的收获来自 Gemma 3 ablation 研究：更激进地使用 SWA 似乎只带来轻微的建模性能下降。

Gemma ablation 研究表明，更小的窗口和更激进的 local:global 比例对 perplexity 影响很小（数据来自 Gemma 3 论文）

4.2 比例与窗口大小

在实践中，说一个模型”使用 SWA”并不意味着它完全依赖 SWA。真正重要的是 local-to-global 层的模式和 attention 窗口大小：

Gemma 3 和 Xiaomi 使用 5:1 的 local-to-global 模式
OLMo 3 和 Arcee Trinity 使用 3:1 模式
Xiaomi 还使用了 128 的窗口大小，比 Gemma 的 1024 激进得多

SWA 本质上是一个可以调整激进程度的旋钮。

图 18：长 context 的节省来自于将很多 full-attention 层变为 local 层，从而减少这些层需要考虑的缓存 context 量

4.3 SWA 与 GQA 的结合

SWA 常与 GQA 一起出现，因为两者解决的是同一推理问题的不同方面：SWA 减少 local 层需要考虑的 context 量；GQA 减少每个 token 贡献给 cache 的 key-value 状态量。

这就是为什么很多近期 dense 模型同时使用两者，而不是将它们视为替代关系。Gemma 3 再次是一个很好的参考点，它在同一架构中同时结合了 SWA 和 GQA。

5. DeepSeek Sparse Attention（DSA）

DeepSeek Sparse Attention 是出现在 DeepSeek V3.2 系列中的架构改动之一，后来又在 GLM-5 中出现。

DeepSeek V3.2 将其与 MLA 结合使用，GLM-5 也采用了同样的组合，目的相同：在 context length 增大时降低推理成本。

典型使用模型：DeepSeek V3.2、GLM-5

5.1 与 SWA 的区别

在 SWA 中，当前 token 不 attend 完整前缀，而只 attend 固定的局部窗口。DeepSeek Sparse Attention 的大思路相同——每个 token 也只 attend 前序 token 的一个子集。

但不同之处在于：被选中的 token 子集不是由固定宽度的局部窗口决定的，而是由模型学习的 sparse 模式决定。具体来说，它使用一个 indexer-plus-selector 设计：lightning indexer 计算相关性得分，token selector 保留得分最高的一小部分历史位置。

选择方式是与 SWA 的主要区别。SWA 硬编码了局部性；DeepSeek Sparse Attention 仍然把 attention 限制在一个子集上，但让模型自己决定哪些历史 token 值得重新关注。

图 19：与 SWA 类似，DeepSeek Sparse Attention 也将每个 token 的 attention 限制在前序 token 的子集，但不使用固定局部窗口

5.2 DeepSeek Sparse Attention 与 MLA 的配合

DeepSeek V3.2 同时使用 MLA 和 DeepSeek Sparse Attention：MLA 通过压缩存储内容来降低 KV cache 成本；DeepSeek Sparse Attention 减少模型需要重新访问的历史 context 量。换句话说，前者优化 cache 的表示形式，后者优化其上的 attention 模式。

图 20：DeepSeek V3.2 是最直接的参考点，这个模型家族与 sparse attention 想法联系最为紧密

Sparse 模式不是随机的：第一阶段是 lightning indexer，对每个新 query token 为历史 token 打分，使用 MLA 的压缩 token 表示计算相似度得分，对历史位置排名；第二阶段是 token selector，只保留得分最高的小子集（如 top-k），并将其转化为 sparse attention mask。

图 21：该机制由一个为历史 token 打分的 lightning indexer 和一个只保留较小子集的 selector 组成

DeepSeek Sparse Attention 相对较新、实现较为复杂，因此目前的普及程度还不及 GQA。

6. Gated Attention

Gated Attention 最好理解为一种改良版的 full-attention block，而非独立的 attention 新家族。

它通常出现在 hybrid 架构中：这些架构仍保留少量 full-attention 层用于精确内容检索，但在熟悉的 scaled dot-product attention block 之上添加了几处以稳定性为导向的改动。

图 22：Trinity Large 中 gate 出现在 scaled dot-product attention 输出之后、output projection 之前，说明 gated attention 不仅是 Qwen 的想法

6.1 Gated Attention 出现的场景

Qwen3-Next 和 Qwen3.5 架构表明，近期的 hybrid 模型并不是在所有地方都替换掉 attention。它们将大多数 attention 层替换为更便宜的替代品，但在 stack 中保留了少数 full-attention 层。

这些保留下来的 full-attention 层就是 gated attention 通常出现的地方。Qwen3-Next 和 Qwen3.5 以 3:1 的模式将 gated attention 与 Gated DeltaNet 结合使用。

当然，除了 hybrid 架构，Trinity 也在更传统的 attention stack 中使用了类似的 gating 思路。

6.2 Gated Attention 与标准 Attention 的对比

Qwen 风格 hybrid 或 Trinity 中的 gated attention block 本质上是标准 scaled-dot-product attention，加上若干改动。在原始 Gated Attention 论文中，这些改动被描述为让保留的 full-attention 层在 hybrid stack 中表现更可预期的方式：

Output gate：在 attention 结果加回 residual 之前，用一个门控对其进行缩放
零中心化 QK-Norm 变体：用于 q 和 k，替代标准 RMSNorm
Partial RoPE

这些不是 MLA 或 linear attention 那个量级的改动，只是应用于熟悉 attention block 的稳定性和控制性改进。

从分类上看，Gated Attention 更像是”保留下来的 full-attention 层应该如何做得更稳”这个问题的答案，而不是一个单独追求更低 attention 复杂度的新主路线。

图 23：在 Qwen3-Next 和 Qwen3.5 中，gated attention 作为周期性打断连续 Gated DeltaNet block 的 full-attention 层出现

7. Hybrid Attention

Hybrid Attention 是一种更宏观的设计模式，而非某一具体机制。总体思路是保持类 Transformer 的 stack，但将大多数昂贵的 full-attention 层替换为更便宜的 linear 或 state-space 序列模块。

动机在于长 context 效率。Full attention 随序列长度呈二次方增长，一旦模型进入 128k、256k 甚至 1M token 的 context，attention 的内存和计算成本就变得昂贵到足以让人考虑：在大多数层使用更便宜的序列模块，只保留少数较重的检索层。（当然这会带来一定的建模性能 trade-off。）

图 24：基础 hybrid 模式：大多数 block 是更便宜的 sequence mixer，每第四个 block 恢复一个较重的 attention 层

7.1 Qwen3-Next 中的 Gated DeltaNet

据我所知，Qwen3-Next（2025 年）是第一个接近旗舰级的带 hybrid attention 的 LLM，它没有完全移除 attention，而是将三个 Gated DeltaNet block 与一个 Gated Attention block 混合。

轻量级 Gated DeltaNet block 承担了大部分长 context 工作，使内存增长比 full attention 平坦得多。保留的较重 gated-attention 层是因为 DeltaNet 在基于内容的检索上精确性不足。

在 Gated DeltaNet block 内部，模型计算 query、key、value 向量以及两个可学习的 gate（α、β）。它不构建通常的 token-to-token attention matrix，而是使用 delta-rule update 写入一个小型 fast-weight 内存。粗略来说，内存存储过去信息的压缩滚动摘要，gate 控制添加多少新信息、保留多少先前状态。

这使得 Gated DeltaNet 成为 linear-attention 或 recurrent 风格的机制，而非 MHA 的另一个变体。与 Mamba-2 的联系在于：两者都属于 linear-time gated sequence model 家族，但 Gated DeltaNet 使用 DeltaNet 风格的 fast-weight 内存更新，而非 Mamba 的 state-space 更新。

图 25：带 Gated DeltaNet 的 hybrid stack 随 context length 增长远比普通 full attention 平缓

Qwen3.5 则把原本 Qwen3-Next 的 hybrid 路线提升进了 Qwen 主旗舰系列。这基本表明 hybrid 策略已经被验证为可行，未来可能会看到更多采用此架构的模型。

图 26：Qwen3.5 显示 Qwen 团队将前 Qwen3-Next 分支提升为主线，而非将其作为一次性效率实验

7.2 Kimi Linear 与改良版 Delta Attention

Kimi Linear 保留了相同的宏观 Transformer 骨架和 3:1 模式，但对两半的组成都做了调整。

轻量侧：Kimi Delta Attention 是 Gated DeltaNet 的改进版。Qwen3-Next 每个 head 使用标量 gate 控制内存衰减；Kimi 使用 channel-wise gating，对内存更新提供更细粒度的控制。较重侧：Kimi 将 Qwen3-Next 的 gated-attention 层替换为 gated MLA 层。

整体模式与 Qwen3-Next 和 Qwen3.5 相同，但两个组件都（略微）改变：大多数层仍由更便宜的 linear 风格机制处理，周期性的较重层仍然保留用于更强的检索。

图 27：Kimi Linear 保留了相同的整体 hybrid 模式，同时改变了轻量侧和较重 attention 侧的具体组件

7.3 Ling 2.5 与 Lightning Attention

Ling 2.5 展示了轻量侧的另一种替换。它使用一种稍微简单的 recurrent linear attention 变体——Lightning Attention，而不是 Gated DeltaNet。较重侧保留了来自 DeepSeek 的 MLA。

大多数序列混合在更便宜的 linear-attention block 中进行，少量较重层保留用于更强的检索。区别在于，具体的轻量机制变成了 Lightning Attention，而非 DeltaNet 或 Kimi Delta Attention。

图 28：Ling 2.5 和 Qwen3.5 都是 linear-attention hybrid，尽管 Ling 换入了 Lightning Attention 和 MLA，而非 Qwen 的方案

Ling 2.5 更侧重于长 context 效率而非绝对 benchmark 领先。据 Ling 团队报告，在 32k token 场景下其吞吐量显著高于 Kimi K2，这正是这些 hybrid 方案所追求的实际回报。

图 29：Ling 2.5 被定位为强效率升级，在同等万亿参数规模下，32k token 吞吐量远高于 Kimi K2

7.4 Nemotron 与 Mamba-2

Nemotron 将模式推得离 Transformer baseline 更远。Nemotron 3 Nano 是一个 Mamba-Transformer hybrid，将 Mamba-2 序列建模 block 与 sparse MoE 层交织，只在少数层使用 self-attention。

这是上述基本 trade-off 的更极端版本：轻量序列模块是 Mamba-2 state-space block，而非 DeltaNet 风格的 fast-weight update，但基本 trade-off 类似。

图 30：Nemotron 3 Nano 将 Mamba-2 用于大多数序列建模工作，self-attention 只出现在少数层

更大的 Nemotron 3 Super 保留了 Mamba-2 hybrid attention 方法，并增加了 latent MoE 和 shared-weight multi-token prediction（MTP，用于 speculative decoding）等其他效率改进。

图 31：Nemotron 3 Super 在保留 Mamba-2 hybrid attention 模式的同时，叠加了 latent MoE 和 shared-weight MTP

译者补充：如何给这些 Attention 变体分类

如果第一次接触这些术语，最容易混淆的地方在于：它们并不都处在同一抽象层级。一个更清晰的办法是按”它主要改了 attention 的哪一部分”来分类：

KV 表示与缓存成本：MHA、GQA、MLA 主要回答”每个 token 的 K/V 应该怎么表示和缓存”。其中 MHA 是基线，GQA 通过共享 K/V head 降低缓存开销，MLA 通过压缩 latent 表示降低缓存开销。
可见上下文的选择方式：SWA、DSA 主要回答”当前 token 到底看哪些历史 token”。SWA 用固定局部窗口硬编码稀疏模式，DSA 则让模型学习要保留哪些历史位置。
Block 级稳定性或架构级替换：Gated Attention、Hybrid Attention 主要回答”在整个网络里 attention block 应该怎样被保留、改造或替换”。前者是对 full-attention block 的稳态改良，后者则是用 linear attention 或 state-space 模块替换大多数 full-attention 层的整体架构策略。

这也是为什么很多术语并不是互斥关系。例如，一个模型完全可以同时使用 GQA + SWA，因为前者优化的是 KV cache 表示，后者优化的是可见上下文范围；也可以出现 MLA + DSA，因为一个在压缩缓存表示，另一个在学习稀疏访问模式。

结语

当然，文献中还有很多（大多是小众的）attention 变体本文未能覆盖。本文的重点在于目前最先进开放权重模型中实际使用的那些。

特别期待：（1）全新的 Mamba-3 层被整合进上述 hybrid 架构（替代 Gated DeltaNet）；（2）attention residuals 得到更广泛的应用。

关于”目前最优架构是什么”这个问题，很难回答，因为没有公开的、在相同训练数据上训练不同架构的实验。

就当前最优模型选择而言，hybrid 架构仍属新颖尝试，主要卖点是（长 context）效率，而非纯粹的建模性能。Sebastian 在原文里还明确提到，他认为这类架构很适合 agent context 一类长上下文场景；但在本地运行 LLM 时，使用 GQA 等经典设置往往仍能获得更好的 tok/sec 吞吐量，说明 inference stack 的优化还不够成熟。

无论如何，很期待 DeepSeek V4 会带来什么，DeepSeek 在过去两年一直是相当可靠的趋势引领者。

原文链接：A Visual Guide to Attention Variants in Modern LLMs
作者：Sebastian Raschka, PhD
发布日期：2026-03-22