Jan 22, 2026 · 预计阅读 8 分钟

Attention 是如何工作的？（从 0 到 1 看懂“关系建模引擎”）

如果你只把 Attention 当成「让模型更聪明的黑盒」，那你做长上下文、做 Agent、多轮对话、做代码理解，几乎一定会踩性能与效果双重坑。

在前两篇里我们把两件事钉死了：

训练主链路：数据 → Embedding → Transformer → Loss → Backprop → Update
Embedding：定义了模型的“世界坐标系”（语义空间）

这一篇要解决的是第三件事：

Attention = 在既定语义坐标系里，动态决定“该看谁、怎么看”的关系建模引擎。

Embedding 决定“世界长什么样”，Attention 决定“模型怎么读世界”。

📌 本篇你将真正搞清楚的，不是「Attention 有多神」，而是：

Attention 的输入/输出到底是什么（工程可落地）
Q/K/V 从哪里来，为什么要这样设计（数学直觉）
Self-Attention 与 Cross-Attention 的边界（系统理解不混淆）
为什么 Attention 会带来 O(n²) 的计算与显存压力（成本根源）
多头注意力到底在“分工”什么（不是玄学）
推理阶段为什么离不开 KV Cache（长对话的生命线）
小模型/长上下文里，哪些优化是真有用的（FlashAttention / GQA / Sliding Window / 位置编码）
Attention 失败时应该怎么排障（可定位、可行动）

📘 Attention：关系建模引擎（工程/数学/可训练视角）

定位说明
本文不是科普，而是站在 工程 + 数学直觉 + 可训练视角，
用来决定你未来做长上下文 / RAG / Agent / 多轮对话 / 代码模型时：
是在堆功能，还是在掌控成本与能力边界。

🧩 为什么必须理解 Attention？

因为你会在三个地方反复被它“卡住”：

效果上：模型明明“看过上下文”，却抓不到关键线索（注意力分配失败）
成本上：上下文一长，显存爆炸、速度雪崩（O(n²) 本性）
系统上：多轮对话不做 KV Cache，吞吐直接崩盘（推理工程失败）

一句话：

Attention 是“能力上限 + 成本上限”的共同拧巴点。

🧠 一句话定义 Attention（工程级）

Attention = 用“相似度权重”对上下文信息做加权汇聚的机制
让每个位置的 token，都能根据当前任务动态决定“该看谁”。

🧭 Attention 在训练链路中的位置（承接前两篇）

flowchart TB
A[文本] --> B[Tokenizer（离散 ID）]
B --> C[Embedding（连续向量/语义坐标系）]
C --> D[Transformer Block]
D --> E[Logits / Loss（训练信号）]

Transformer Block 不是“只有 Attention”，它的稳定性与表达能力来自完整结构：

flowchart TB
X[输入 X] --> LN1[LayerNorm] --> Attn[Multi-Head Attention] --> Add1[Residual Add]
X --> Add1
Add1 --> LN2[LayerNorm] --> FFN[FFN / MLP] --> Add2[Residual Add]
Add1 --> Add2
Add2 --> Y[输出 Y]

结论： Attention 负责“信息路由与汇聚”，Residual/LN 负责“稳定训练与保留信息”，FFN 提供“非线性表达能力”。

🔍 1. 数学直觉：Attention 到底在算什么？

先记住一句核心话： Attention 的本质，是“用 Query 去问：在当前上下文里，哪些 Key 最相关，然后把这些 Key 对应的 Value 汇聚起来”。

① Q / K / V 是什么？

Q（Query）：我现在要解决的问题/要关注的方向
K（Key）：上下文里每个 token 的“索引标签”
V（Value）：上下文里每个 token 提供的“信息内容”

它们都来自同一份输入向量（Embedding 或上一层输出）做线性变换：

Q = XWq
K = XWk
V = XWv

② Scaled Dot-Product Attention（核心公式）

Attention(Q,K,V) = softmax( QK^T / sqrt(d_k) ) V

直觉解释：

QK^T：计算“我（Q）和你们（K）”的相关性分数
/ sqrt(d_k)：防止维度大导致分数过大（softmax 变尖、训练不稳）
softmax(...)：把相关性变成权重（概率分布）
... V：用权重对信息内容做加权汇聚

🧩 2. Self-Attention vs Cross-Attention（边界必须清晰）

你会在不同系统里遇到两种注意力：

Self-Attention（同源） Q/K/V 都来自同一个序列 X：

Q=XWq, K=XWk, V=XWv

用途：建模“序列内部关系”（语言模型、代码模型、多轮对话）

Cross-Attention（异源） Q 来自当前序列 Y，K/V 来自外部序列 X：

Q=YWq, K=XWk, V=XWv

用途：用 Y 去“查询”外部信息（Encoder-Decoder、检索结果融合、多模态融合）

结论： Self-Attention 解决“内部关系”，Cross-Attention 解决“跨源对齐”。

🔧 3. 工程视角：Causal Mask 决定“看得到/看不到”

语言模型（自回归）必须遵守因果性：当前位置 i 只能看 1..i 的过去，不能偷看未来。

这就是 Causal Mask：

flowchart LR
A[QK^T 得分矩阵] --> B[加上 Mask（未来位置=-inf）]
B --> C[softmax]
C --> D[权重矩阵]

工程意义：

没有 mask：训练会“作弊”，推理时崩
mask 做错：多轮对话会出现奇怪跳跃、逻辑断裂

🧠 4. 多头注意力（Multi-Head）到底在“分工”什么？

多头不是为了炫技，而是为了让模型同时学习多种关系子空间：

有的头专注“指代关系”（他/她/它对应谁）
有的头专注“结构关系”（标题-段落、函数-变量）
有的头专注“局部邻近”（短程语法）
有的头专注“长程依赖”（跨段落主题）

形式上是把一个大维度拆成 h 个头并行做 Attention：

head_i = Attention(XWq_i, XWk_i, XWv_i)
MultiHead = Concat(head_1..head_h) Wo

结论： 多头 = 多个“不同视角的关系投影”，并行学习不同的关系模式。

🧨 5. 为什么 Attention 这么贵？（O(n²) 的根源）

核心瓶颈来自 QK^T：

序列长度 = n
得分矩阵大小 = n × n
计算与显存随 n² 增长

这会导致两个现实后果：

上下文翻倍，成本接近 4 倍（不是线性增长）
训练阶段还要存激活用于反向传播，显存压力显著更大

📊 6. 训练 vs 推理：Attention 成本分解（工程算账必须会）

场景	主要成本项	随 n 增长趋势	结论
训练	激活保存 + n×n attention 权重 + 梯度	近似 O(n²)，显存更重	长序列训练成本爆炸
推理（无 KV Cache）	每步重复计算历史 K/V	时间爆炸	多轮必崩
推理（有 KV Cache）	只新增 K/V + 读取历史 cache	单步更接近 O(n)，但 cache 吃显存	工程可控

结论： 训练贵在“存激活 + n²”，推理贵在“重复算历史”，KV Cache 是推理侧的必选项。

⚙️ 7. 推理阶段的生命线：KV Cache 为什么必须要有？

在自回归推理中，每生成一个新 token：

新 token 的 Q 只算一次
但它需要和历史所有 K/V 做注意力

如果每一步都重新计算历史 K/V，会重复做大量无意义工作。

KV Cache 的工程思想：

历史 token 的 K/V 缓存起来
每一步只新增 1 个 token 的 K/V
计算变成“新 Q 对旧 K/V 的一次查询”

效果：

多轮对话速度显著提升
长对话吞吐从“雪崩”变成“可控”

结论： 没有 KV Cache 的对话系统，长对话必崩。

⚠️ KV Cache 显存账本（你必须知道什么时候会 OOM）

KV Cache 会把“时间换成空间”，它吃显存的粗估公式是：

KV Cache 显存 ~ batch × seq_len × num_kv_heads × head_dim × 2(K+V) × dtype_bytes

你必须记住三条工程结论：

seq_len 翻倍 → cache 基本翻倍
batch/并发上升 → cache 线性上升，在线服务最容易因此 OOM
GQA/MQA 的价值：减少 num_kv_heads，降低 cache 显存与带宽压力

🚀 8. 小模型/长上下文的关键优化路线（优先级必须正确）

下面这些是“真能改变系统表现”的优化点，且有明确选择条件：

① FlashAttention / SDPA（优先级最高） 核心：减少中间存储与内存读写压力，让训练更快更省显存。

② GQA / MQA（推理吞吐核心） 核心：减少 K/V 头数，降低 KV Cache 的显存与带宽压力。

③ Sliding Window / 稀疏注意力（超长上下文必选之一） 核心：只看局部或结构化子集，避免全局 n×n 开销。代价：可能损失部分长程依赖，必须做评估确认可接受。

④ 位置编码策略（RoPE / ALiBi 等）（决定长上下文“是否失焦”） 核心：位置机制决定 token 之间“相对距离”如何进入 QK 相似度。长上下文失败常见表现是：远处信息权重衰减、漂移、失焦。这不是“模型不聪明”，而是“位置机制与训练长度不匹配”。

📌 工程决策表：你到底该选哪个？

目标	必须优先选	代价/风险
训练更省显存更快	FlashAttention / SDPA	依赖框架/版本/硬件支持
在线推理吞吐提升	KV Cache + GQA/MQA	需评估质量变化与兼容性
超长文档（>32k/128k）	Sliding Window / 稀疏注意力	长程依赖能力可能下降
远处信息经常用不上但成本太高	Window + 检索（RAG）	系统复杂度上升
长上下文经常失焦	位置编码策略 + 训练长度/数据分布对齐	需要实验验证

🧨 9. Attention 失败的三种典型症状（排障从这里开始）

失焦（Focus Drift）
- 表现：上下文很长，但回答抓不到关键句
- 常见原因：位置机制不稳；训练长度不足；窗口策略不当；数据分布不匹配
过度复制（Over-copy）
- 表现：模型爱复读、拼接上下文片段
- 常见原因：注意力权重过尖；训练数据偏“摘抄式”；解码策略不当
短程强、长程弱（Short-biased）
- 表现：近处内容用得好，远处信息像没看见
- 常见原因：训练序列长度不足；稀疏/窗口限制；KV Cache 配置与并发策略不当

🧪 10. 最小可验证实验（MVE）：亲眼看到 Attention 在“看哪里”

你不需要训练大模型，也能“看到注意力权重”。

实验目标：

选一个可导出注意力权重的开源模型
给一句带指代的文本：“小王把书给了小李，因为他很着急。”
抽取某层某些 head 的 attention weights，观察“他”更偏向谁（小王/小李）

你应当看到：

在某些 head 里，“他”会对更可能被指代的实体分配更高权重
不同 head 的关注点不同：有的看语法邻近，有的看语义线索

⚠️ 注意：attention map 不是严格的因果解释，但它是非常有效的工程定位工具：你至少能确认模型“看见了谁”，还是“根本没看见”。

🧠 架构级总结：Embedding vs Attention vs FFN 各司其职

flowchart LR
A[Embedding] --> B[Attention]
B --> C[FFN]
A:::note -->|定义语义坐标系| B
B:::note -->|关系建模/信息汇聚| C
C:::note -->|非线性变换/表达力| D[更强表示]
classDef note fill:#f7f7f7,stroke:#999,stroke-width:1px;

一句话版本：

Embedding：定义世界（坐标系）
Attention：读世界（关系）
FFN：写世界（表达变换）

📌 必须记住的 7 件事

Attention 是“关系计算与信息汇聚机制”，不是玄学
Q/K/V 让模型具备“查询-索引-内容”的读取方式
Causal Mask 决定语言模型是否遵守因果性
O(n²) 来自 n×n 的相关性矩阵，这是成本根源
多头不是玄学，是并行学习多种关系子空间
推理必须用 KV Cache，但要会算 cache 的显存账本
长上下文优化优先级：Flash/SDPA → GQA/MQA → Window/稀疏 → 位置策略

🧭 你现在就可以做的下一步（最小可执行清单）

打开/关闭 KV Cache，对比同一段长对话的吞吐与显存占用
把 seq_len 从 2k → 8k → 32k 拉长，记录速度曲线与 OOM 点
对同一文档做一次：全注意力 vs Sliding Window（对比质量/成本）
抽取一条指代文本的 attention map，验证模型是否存在“指代头”

📌 下一篇预告

《Loss & 优化：模型为什么会“学会”？（从误差到能力的塑形）》 下一篇我们会拆开“训练真正发生的地方”：

Loss 如何定义方向
反向传播如何分配责任
学习率如何决定收敛与稳定性

希望会真正理解：模型不是“记住了”，而是“被目标函数塑形了”。