福星家和 · Fuxing Jiahe

Attention 是如何工作的？（从 0 到 1 看懂“关系建模引擎”）

本篇是「小模型训练系列」第 3 篇：用工程 + 数学直觉拆开 Attention 的核心结构、复杂度来源、KV Cache 与长上下文优化路线。

Jan 22, 2026 · 预计阅读 8 分钟
Embedding：词是如何变成数学的？

本篇是「小模型训练系列」的开篇，从工程与数学直觉出发，带你真正理解大模型是如何被「炼」出来的。

Jan 5, 2026 · 预计阅读 6 分钟
模型训练流程图解（从 0 到 1 训练自己的 AI）

本篇是“小模型训练系列”的开篇，带你真正理解大模型是如何被“炼”出来的。

Nov 14, 2025 · 预计阅读 4 分钟
欢迎来到福星家和

这是我个人网站的第一篇文章，记录我们的开始。

Aug 19, 2025 · 预计阅读 1 分钟