本篇是「小模型训练系列」第 3 篇:用工程 + 数学直觉拆开 Attention 的核心结构、复杂度来源、KV Cache 与长上下文优化路线。
Jan 22, 2026 · 预计阅读 8 分钟
本篇是「小模型训练系列」的开篇,从工程与数学直觉出发,带你真正理解大模型是如何被「炼」出来的。
Jan 5, 2026 · 预计阅读 6 分钟
本篇是“小模型训练系列”的开篇,带你真正理解大模型是如何被“炼”出来的。
Nov 14, 2025 · 预计阅读 4 分钟
这是我个人网站的第一篇文章,记录我们的开始。
Aug 19, 2025 · 预计阅读 1 分钟